Paperless-ngx 2.3.0 bringt uns Workflows und OCR UI Konfiguration

Von: Torsten
10 minutes read
Paperless-ngx 2.3.0 ist erschienen und bringt uns Workflows & OCR-Neuerungen!

Vornweg: Dies ist kein gesponserter Beitrag und ich bekomme dafür auch kein Geld. Im Beitrag sind Links zu Amazon enthalten, bei denen es sich um affilate Links handelt. Dadurch könnt ihr mich unterstützen.

Werbung

Als ich im letzten Jahr auf Paperless-ngx umgestiegen bin, hätte ich nicht gedacht, welch rasante Entwicklung dieses Community getriebene Open Source Projekt nehmen würde. Mit der neuesten Version 2.3.0 (mittlerweile schon 2.3.3) bekommt Paperless-ngx gleich zwei bahnbrechende neue Features spendiert, die Paperless -ngx immer mehr zu einem ernstzunehmenden Dokumentenmanagementsystem werden lassen.

Die zwei herausragenden Features, welche besonders hervor stechen sind: die Einführung von anpassbaren Workflows und die innovativen, in der Benutzeroberfläche konfigurierbaren OCR-EinstellungenDiese beide Entwicklungen, vor allem aber die Möglichkeit nun Workflows konfigurieren zu können, bringen immer mehr Flexibilität und Effizienz in die Verarbeitung und Organisation unserer digitalen Dokumente. 

In diesem Blogbeitrag werfen wir einen Blick auf diese spannenden Neuerungen und wie sie die Art und Weise verändern, wie wir mit unseren Dokumenten interagieren.

Paperless-ngx Workflows mit Version 2.3.0
Paperless-ngx Workflows mit Version 2.3.0

Endlich Workflows in Paperless-ngx

Die neue Workflow-Funktionalität in Paperless-ngx 2.3.0 ermöglicht es, komplexe Prozesse und Aktionen automatisiert zu gestalten. Diese Workflows können durch verschiedene Ereignisse (Trigger) ausgelöst werden, wie etwa das Hinzufügen oder Aktualisieren eines Dokuments. Nutzer können mehrere “Trigger” definieren, die auf spezifische Ereignisse reagieren. Dabei unterstützt das System unterschiedliche Filteroptionen, einschließlich Inhaltsabgleich und Kategorisierung nach Tags, Dokumententyp oder Korrespondenten. Darüber hinaus bietet es die Möglichkeit, mehrere “Aktionen” innerhalb eines Workflows zu definieren, wodurch sich ein breites Spektrum an Anpassungen und Automatisierungen realisieren lässt.

Sale
Brother ADS-1700W Kompakter und intelligenter Dokumentenscanner | Dokumentenzuführung | Automatisches Scannen | Wi-Fi/Wi-Fi Direct, Weiß/Schwarz **
  • Geschwindigkeit bis zu 25 ppm (50 ipm Duplex)
  • 20-Blatt-Dokumentenzuführung und eigener Steckplatz für laminierte
  • Wi-Fi und Wi-Fi Direct
  • Automatisches Scannen
  • Scannen auf PDF, Datei, E-Mail-Server, Netzwerk, FTP, USB-Stick

Trigger für die Paperless Workflows

Die Trigger sind folgende

  1. Consumption Started (Bevor das Dokument konsumiert wurde)
  2. Dokument hinzugefügt (Nachdem das Dokument konsumiert wurde)
  3. Dokument aktualisiert (Nachdem das Dokument konsumiert wurde)
Paperless 2.3.0 - Trigger
Paperless-ngx 2.3.0 - Trigger

Trigger sind das Herzstück der Workflow-Funktionalität und ermöglichen uns nun die Automatisierung des Dokumentenmanagement-Prozesses. Derzeit stehen drei Workflow-Trigger-Typen zur Verfügung: ‘Verbrauch gestartet’, ‘Dokument hinzugefügt’ und ‘Dokument aktualisiert’.
Jeder Triggertyp bietet verschiedene Filteroptionen, die auf unterschiedliche Aspekte des jeweiligen Dokumentenstatus zugeschnitten sind. Beispielsweise ermöglicht der ‘Consumption Started’-Trigger das Filtern nach Quelle, Dateipfad oder Mail-Regel, bevor ein Dokument verarbeitet wird. Der ‘Document Added’-Trigger tritt in Kraft, nachdem ein Dokument hinzugefügt wurde, wobei Dateipfad und Quelleninformationen nicht mehr verfügbar sind, aber der Inhalt des Dokuments und Metadaten wie Dokumenttyp und Tags für die Filterung verwendet werden können. Der Trigger ‘Document Updated’ schließlich wird aktiviert, wenn ein Dokument aktualisiert wird und ermöglicht Filterungen auf der Basis von Inhalt, Tags, Dokumententyp oder Korrespondenzpartner. Diese Trigger bieten eine enorme Flexibilität und ermöglichen es den Benutzern, ihre Dokumentenverwaltungsprozesse präzise und effizient zu automatisieren.

Das folgende Diagramm aus der offiziellen Paperless-ngx Dokumentation veranschaulicht sehr schön den Aktivitätenfluss sowie die Punkte, an denen die Trigger reagieren, 

Paperless-ngx Trigger Diagramm Quelle: https://docs.paperless-ngx.com/usage/#workflow-triggers
Synology DiskStation DS224+ 2 Bay Dekstop NAS **
  • Centralized Data Storage - Consolidate all your data for complete data ownership and multi-platform access
  • Sharing and Syncing Across Systems - Access, share, and sync data across different systems and devices using intuitive controls
  • Powerful Backup and Restoration - Back up and restore critical devices and data using a host of intuitive backup tools
  • Built-in Data Management Tools - Leverage built-in file and photo management, data protection, and video surveillance solutions

Filter für Paperless-ngx Workflows

Die Filterfunktion in den Workflow-Triggern von Paperless-ngx 2.3.0 spielt eine entscheidende Rolle bei der Anpassung der Workflows. Diese Filter ermöglichen es dem Benutzer, spezifische Kriterien zu definieren, die bestimmen, wann und wie ein Workflow ausgelöst wird. Beispielsweise kann für den Trigger ‘Consumption Started’ ein Filter nach Quelle wie Mail, Consume-Ordner oder API-Upload, Dateipfad oder Dateiname angewendet werden.
Für die Trigger ‘Dokument hinzugefügt’ und ‘Dokument aktualisiert’ stehen andere Filter zur Verfügung, da zu diesen Zeitpunkten andere Informationen verfügbar sind. Hier können Filter basierend auf Dokumentinhalt, Tags, Dokumenttyp oder Korrespondent angewendet werden. Diese Filter sind besonders nützlich, um Workflows auf bestimmte Dokumentenkategorien oder thematische Anforderungen zuzuschneiden, was ein hochgradig zielgerichtetes und automatisiertes Dokumentenmanagement ermöglicht.

Workflow Aktionen für Paperless-ngx Workflows

Workflow-Aktionen werden ausgeführt, nachdem der Trigger ausgelöst wurde und der Workflow-Filter ein Dokument ausgewählt hat. Derzeit gibt es nur eine Hauptkategorie von Workflow-Aktionen: die Zuweisung.
Mit dieser Aktion können verschiedene Attribute eines Dokuments automatisch gesetzt oder geändert werden. Dazu gehören die Zuweisung von Titeln, Tags, Korrespondenten, Dokumenttypen, Dokumentbesitzern sowie die Zuweisung von Anzeige- und Bearbeitungsrechten für Benutzer oder Gruppen.
Zusätzlich können benutzerdefinierte Felder zugewiesen werden, wobei für diese zunächst kein Wert gesetzt, sondern nur das Feld selbst hinzugefügt werden kann. Mit diesen Aktionen können Dokumente effizient kategorisiert und organisiert werden. Zudem kann sichergestellt werden, dass nur berechtigte Personen oder Gruppen Zugriff auf dieses Dokument haben.
Der Clou ist, dass mehrere Aktionen in einem Workflow kombiniert werden können, was die Automatisierungsmöglichkeiten auf ein neues Level hebt.

Use Cases für die Paperless-ngx Workflows

Use Cases für die neue Worklflow Funktionalität fallen mir einige ein. Ich habe einen Workflow konfiguriert, welcher Dokumente, die aus dem Importordner stammen, direkt mit dem Tag “gescannt” versehen. So kann ich später Dokumente nach ihrer Herkunft sortieren. Weitere Ideen für Workflows:

  1. Automatische Dokumentensortierung: Nutzer könnten Workflows erstellen, welche eingehende Dokumente automatisch sortieren und kategorisieren. Beispielsweise können so Rechnungen, Verträge oder Korrespondenzen basierend auf ihrem Inhalt, Dateinamen oder der Quelle entsprechend mit relevanten Tags versehen werden.

  2. Automatisierte Zugriffsrechtevergabe: Workflows können so konfiguriert werden, dass sie automatisch Zugriffsrechte für neue Dokumente festlegen. So könnten beispielsweise vertrauliche Dokumente automatisch auf bestimmte Nutzergruppen beschränkt werden.

  3. Vorlagenbasierte Titelzuweisung: Mit Workflows können Benutzer Vorlagen für Dokumententitel erstellen, die automatisch basierend auf bestimmten Kriterien wie Datum, Korrespondent oder Dokumententyp angewendet werden.

OCR Konfiguration nun in der UI möglich

Ebenfalls mit der Version 2.3.0 von Paperless-ngx wurde eine wesentliche Verbesserung eingeführt, die vor allem die Benutzerfreundlichkeit erhöht: Die Konfiguration der OCR-Einstellungen kann nun direkt über die Benutzeroberfläche vorgenommen werden. Bisher mussten die Einstellungen für den OCR-Parser über sogenannte Umgebungsvariablen konfiguriert werden (siehe meine ersten Blogeinträge zu Paperless-ngx), was für manche Benutzer eine technische Hürde darstellen konnte.

Mit diesem Update ist es nun möglich, diese Einstellungen direkt in der Benutzeroberfläche anzupassen, was eine sofortige Anpassung und Aktualisierung der OCR-Verarbeitung für neue Dokumentenerfassungen oder Archivupdates ermöglicht.

Paperless-ngx wird mit jedem Update zugänglicher und benutzerfreundlicher – Daumen hoch dafür. Es wird erwartet, dass im Laufe der Zeit weitere Einstellungen, die bisher nur über die Umgebung konfigurierbar waren, in die Benutzeroberfläche integriert werden.

Paperless-ngx OCR Konfiguration
Paperless-ngx OCR Konfiguration

In der neuen UI-Konfiguration für die OCR-Einstellungen von Paperless-ngx 2.3.0 haben Benutzer die Möglichkeit, verschiedene Aspekte des OCR-Prozesses anzupassen. Einige Beispiele für diese Konfigurationsoptionen sind:

  1. Spracheinstellung (PAPERLESS_OCR_LANGUAGE): Benutzer können die Sprache für den OCR-Prozess anpassen. Dies ist besonders nützlich für mehrsprachige Umgebungen, da Tesseract mehrere Sprachen wie ‘deu+eng’ unterstützt.

  2. OCR-Modus (PAPERLESS_OCR_MODE): Es gibt drei Modi zur Auswahl: ‘skip’ (OCR wird nur durchgeführt, wenn keine Textebene vorhanden ist), ‘redo’ (alle Seiten werden neu gescannt und bestehende Textebenen ersetzt) und ‘force’ (Dokumente werden in Bilder konvertiert und dann OCR durchgeführt).

  3. Archivierungsoptionen (PAPERLESS_OCR_SKIP_ARCHIVE_FILE): Benutzer können festlegen, wann eine archivierte Version des Dokuments erstellt wird, mit Optionen wie ‘never’, ‘with_text’ (überspringen, wenn Text vorhanden ist) oder ‘always’.

  4. Reinigungsoptionen (PAPERLESS_OCR_CLEAN): Einstellungen, um das Tool ‘unpaper’ zur Reinigung von Eingangsdokumenten vor dem OCR-Prozess zu nutzen, was in der Regel zu besseren OCR-Ergebnissen führt.

  5. Seitenrotation und -ausrichtung: Einstellungen wie ‘PAPERLESS_OCR_DESKEW’ (zur Korrektur von Schrägstellungen) und ‘PAPERLESS_OCR_ROTATE_PAGES’ (zur automatischen Seitenrotation) helfen dabei, die Lesbarkeit und Genauigkeit der OCR-Ergebnisse zu verbessern.

Fazit - Paperless-ngx wird immer besser

Mit dem Release von Paperless-ngx ab Version 2.0 – 2.3.0 erleben wir eine signifikante Weiterentwicklung des Open Source Dokumentenmanagement-Tools. Die Einführung anpassbarer Workflows und die Integration von OCR-Konfigurationen in die Benutzeroberfläche sind bahnbrechende Schritte, die die Benutzerfreundlichkeit und Funktionalität von Paperless-ngx erheblich verbessern.

Diese Updates ermöglichen es uns, unser Dokumentenmanagement effizienter zu gestalten und den OCR-Prozess über die Benutzeroberfläche an unsere Bedürfnisse anzupassen. Es wird deutlich, dass Paperless-ngx mit diesen Neuerungen seine Position als leistungsstarke Lösung für das papierlose Büro weiter festigt und die Bedürfnisse und Wünsche seiner Anwenderbasis erfüllt.
Wir dürfen gespannt sein, welche Innovationen und Verbesserungen die Zukunft für Paperless-ngx bereithält und wie diese das Dokumentenmanagement weiter revolutionieren werden.

Was bedeuten die ** hinter den Links?

** = Amazon Affiliate Links
Das bedeutet, dass wenn ihr diese Amazon Links besucht und ein Produkt egal welcher Art kaufen solltet, ich einen kleinen Teil als Werbekosten erstattet bekomme. Die Produkte werden dadurch nicht teurer und ihr bezahlt nicht mehr Geld.

Weitere spannende Artikel

2 Kommentare

R 19. Januar 2024 - 20:38

Danke für die Beiträge zu Paperless NGX! Hilft bei der Einordnung der Updates und mir bei meiner persönlichen Nutzung!

Liebe Grüße 🙋🏻‍♂️

Antworten
Torsten 19. Januar 2024 - 22:41

Vielen lieben Dank – Freut mich !

Antworten

Leave a Comment

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.