Systemanforderungen#
Betriebsanforderungen & Systemumgebungen bei Installation on Site#
Die Systemumgebung umfasst drei Typen an VMs. Die Konfuzio Server Software wird auf der Master VM betrieben. Die Geschwindigkeit bei der Verarbeitung der Aufgaben in der Redis Taskqueue kann neben der Master VM durch die Einbindung weiterer Worker VM(s) erweitert werden, siehe hierzu auch Leistung unter Last. Sofern eine Texterkennung (OCR) benötigt wird, ist mindestens eine OCR VM je Worker VM zu betreiben.
Ausgestaltung der Master VM#
Ressourcen: 8 vCPU (min. 2,6 GHz) und 64 GB RAM
Als Betriebssystem der VM empfehlen wir Redhat Linux.
Alle VMs benötigen die AVX2 CPU-Befehlserweiterung.
Als Datenbank wird PostgreSQL in der Version 10 oder neuer verwendet (empfohlen wird die aktuelle stabile Version)
Als Taskqueue wird Redis in der Version 5 oder neuer verwendet (empfohlen wird aktuelle Stabile Version)
Jede VM sollten innerhalb des Netzwerkes mit mindestens 1 Gbit/s angebunden sein
Netzwerkspeicher für Dateien mit mindestens 1 TB Speicherplatz
Eine Internetverbindung ist nicht erforderlich.
Die technische Anleitung zur Installation der Konfuzio Server Software ist hier zu finden.
Ausgestaltung der Worker VM#
Ressourcen: 8 vCPU (min. 2,6 GHz) und 64 GB RAM
Als Betriebssystem der VM empfehlen wir Redhat Linux.
Alle VMs benötigen die AVX2 CPU-Befehlserweiterung.
Jede VM sollten innerhalb des Netzwerkes mit mindestens 1 Gbit/s angebunden sein
Lese- und Schreibzugriff zu der Netzwerkspeicher der Master VM
Eine Internetverbindung ist nicht erforderlich
Ausgestaltung der OCR VM (optional)#
Ressourcen: 8 vCPU (min. 2,6 GHz) und 64 GB RAM
Als Betriebssystem der VM empfehlen wir Redhat Linux.
Alle VMs benötigen die AVX2 CPU-Befehlserweiterung.
Jede VM sollten innerhalb des Netzwerkes mit mindestens 1 Gbit/s angebunden sein
Lese- und Schreibzugriff zu der Netzwerkspeicher der Master VM
Die Nutzung von Tesseract 4.1.1 benötigt keine Internetverbindung
Die Nutzung des On-Prem Container erfordert ca. alle 100 Miuten eine Internetverbindung, um die Anzahl der verarbeitenden Seiten an Microsoft zu melden. Hierbei werden jedoch keine weiteren Daten übertragen. Weitere Details können Sie in der Dokumentation einsehen.
Leistung unter Last#
Eine Systemumgebungen mit einer Master VM und einer Worker VM verarbeiten 3.000 Seiten pro Stunde. Eine Systemumgebungen mit einer Master VM und zwei Worker VMs verarbeiten 6.000 Seiten pro Stunde. Die Angaben beschreiben den Zustand bei Nutzung von Tesseract 4.1.1 und sehen vor, dass zur Lastzeit kein Training der KI durchgeführt wird.
Development- / Testsystem#
Im Folgenden finden Sie die Ausgestaltung von Development oder Staging Servern, um ein Development-/ Testsystem unabhängig von dem Betrieb in Produktion zu ermöglichen.
1 VM für Datenbanken, Datenspeicher und Konfuzio Server (jeweils für Development und Test) + alle Tasks des Development Systems. Tasks bezeichnen Aufgaben aus der “Task Queue” wie Preprocessing, Klassifikation, Extraktion und Training
1 VM für OCR (Development und Test)