FileScheduler Extract Modul

Industriestandard für hochperformante und zuverlässige Extraktion von Text und Barcodeinformationen aus PDF-Dokumenten

Eine Erweiterung für FileScheduler Workflows Server

FileScheduler Extract Modul

- Automatisiertes Lesen von Textinhalten und Barcodes von PDF-Seiten -

FileScheduler Workflows bieten bereits zahlreiche Möglichkeiten, um Dokumente auf Basis ihrer individuellen Struktur zu erkennen und dementsprechend individuell zu verarbeiten. Das FS Extract Modul besteht u.a. aus einer Funktionsbibliothek die diese Möglichkeiten um Funktionen zur performanten Textlesung und Barcodelesung auf PDF-Seiten erweitert.

Lesezonen

Mit dem FS Extract Designer können mehrere Leselayouts, bestehend aus rechteckige Bereiche (Lesezonen) definiert werden, aus den Textinhalte oder Barcodewerte (z.B. Adressen, Rechnungsnummern etc.) sowie komplette Tabelleninhalte mit Überlauf auf eine oder mehrere Folgeseiten zuverlässig ausgelesen (extrahiert) werden. Alle vom Workflow benötigten Leselayouts können in eine Leseschablonen-Datei gespeichert werden.

Die so definierten „Leselayouts“ können anschließend in automatisierten FileScheduler Workflows mit dem "FS Extract" Modul eingelesen und genutzt werden.
Spezielle Daten können in den einzelnen Lesezonen zuverlässig mittels Mustersuche erkannt werden. Das ist notwendig, wenn sich die Position der gewünschten Daten in der Lesezone von Dokument zu Dokument verändert. Mittels Mustersuche können auch diese Daten unabhängig von ihrer innerhalb der Lesezone zuverlässig ausgelesen werden.

Natürlich können auch Daten aus mehrseitige PDF-Dokumente ausgelesen werden (z.B. bei der Aufteilung von Serienbriefen in einzelne PDFs, wenn die Aufteilung beispielsweise auf Basis der Empfängeradresse oder anderen Inhalte erfolgen soll.

Weitere Informationen und Anwendungsbeispiele finden Sie in diesem News-Beitrag:

Wichtig: Die Text- und Barcode-Lesung in PDF-Dokumenten erfolgt nicht mittels OCR/ICR (optical charakter recognition) und ist daher äußerst performant und zuverlässig. Die Barcodelesung ist auch für die Verarbeitung von eingescannten Dokumenten einsetzbar, die als PDF- oder Bild-Dateien vorliegen!

Technische Details

Klicken Sie auf die einzelnen Register, um Details anzuzeigen.

Lesen von Textinhalten

Performantes Lesen von Textinhalten auf PDF-Seiten

Mit dem FileScheduler Extract Modul kann ein FileScheduler Workflow PDF-Dokumente bis zu 100.000 Seiten verarbeiten. Da die Textlesung auf PDF-Seiten nicht auf optischer Zeichenerkennung (OCR) basiert, erfolgt die Verarbeitung hochperformant und zuverlässig. Im Vergleich zu OCR/ICR ergebenen sich zahlreiche Vorteile

deutlich höhere Lesegeschwindigkeit
Leseergebnis ist unabhängig von der optischen Qualität und der Helligkeit der Texte
Leseergebnis ist unabhängig von der Textfarbe und Hintergrundfarbe
Somit kann auch weiße Schrift auf weißem Hintergrund gelesen werden
Leseergebnis ist unabhängig von der Zeichengröße
Leseergebnis ist unabhängig von der Schriftart
Leseergebnis ist unabhängig davon, ob ein Bild oder eine Grafik den Text überlagert/verdeckt

Lesen von Barcodewerten

Performantes Lesen von Barcodeinhalten auf PDF-Seiten

Das FileScheduler Extract Modul ist für die sichere und performante Verarbeitung großer PDF-Dateien (mehrere tausend Seiten) optimiert. Auch das Auslesen von Barcodewerten erfolgt mit hoher Geschwindigkeit und Genauigkeit. Durch Autokorrektur-Algorithmen können selbst verzerrte oder teilweise zerstörte Barcodes gelesen werden. Zudem wird bei jeder Barcodelesung ein „Zuverlässigkeitswert“ ermittelt, auf den im FileScheduler Workflow entsprechend reagiert werden kann.

Verarbeitung von mehr als 45 Barcodetypen und Subtypen
Auto-Korrekturalgorithmen zur automatischen Verbesserung der Leseegebnisse bei schlechter Barcodequalität
Lesen von gedrehten Barcodes
Unterstützung aller Formen der Barcodeeinbringung in PDF-Dateien (z.B. eingebrachte Barcode-Images, Barcodes auf Basis von Barcode-Fonts, Barcodes, die durch grafische Operatoren gezeichnet werden, etc.)

Scanverarbeitung

Oftmals enthalten die von Scannern erzeugten PDF-Dokumente nur die „Fotos“ der gescannten Dokumentenseiten. Die Textlesung des FS Extract Moduls setzt voraus, daß die PDF-Dokumente Textinformationen enthalten. Für gescannte PDF-Dokumente, die nur Bilder enthalten, kann die Textlesung des FS Extract Moduls nicht genutzt werden. Gescannte Dokumente, die einen OCR-Prozess durchlaufen haben, bei dem die mittels OCR gelesenen Textinhalte hinzugefügt wurden, können in der Regel mit dem FS Extract Modul verarbeitet werden.

Hinweis: Sie können einfach prüfen, ob die Textlesung ihrer gescannten PDFs möglich ist. Öffnen Sie die gescannte PDF-Datei in einem PDF-Viewer und versuchen Sie mit Hilfe eines Text-Auswahlwerkzeugs Worte oder Sätze zu markieren.
Wenn das gelingt, kann der Text auch von FS Extract gelesen werden. Wenn Sie sich nicht sicher sind, senden Sie Ihre Datei einfach zur Prüfung an Info@dev4print.com. Selbstverständlich werden Ihre Daten absolut vertraulich behandelt.

Im Gegensatz zur Textlesung kann die Barcodelesung auch mit Fotos / eingescannten Bildern und Dokumenten (PDF, TIF, PNG, JPG, BMP) arbeiten. So kann die FS Extract Barcodelesung auch mit PDFs genutzt werden, die durch Einscannen erstellt wurden. So können beispielsweise Papierordner, deren Register oder auch Pläne in einzelnen Dokumenten eingescannten wurden, automatisiert wieder zu einem Gesamt-PDF zusammengesetzt werden.

Lizenzierung

Lizenzierung des FileScheduler Extract – Moduls

Das FS Extract – Modul besteht aus einer optionalen Lizenz für den FS Extract Designer und einer Lizenz-Erweiterung für die zugehörige FileScheduler Workflows Installation. Für jeden Rechner (bzw. virtuelle Maschine) auf dem die FS Extract – Funktionalität in automatisierten FileScheduler Workflows genutzt werden soll, wird eine FS Extract Modul – Lizenz benötigt. Wenn Sie auch mit dem optionalen FS Extract Designer arbeiten möchten, benötigen Sie eine FS Extract Designer Lizenz für jeden Rechner (bzw. virtuelle Maschine), auf dem der FS Extract Designer installiert werden soll. Die Lizenz ist damit

unabhängig von der Anzahl der Workflows, die die Extract Funktionen des Moduls nutzen
unabhängig vom verarbeiteten Datenvolumen (z.B. Seitenanzahl, PDF-Anzahl, etc.)

Systemvoraussetzungen

Da das FileScheduler Extract – Modul in einer FileScheduler Workflows Installation mit deren Systemanforderungen genutzt wird, bestehen darüberhinaus keine speziellen Anforderungen.

Die Installation des Moduls benötigt ca. 30 MBytes freier Festplattenspeicher auf dem Laufwerk, auf dem FileScheduler Workflows Server installiert ist.

Preise

Wenn Sie FS Extract in Verbindung mit ihrem FileScheduler Workflows Server nutzen möchten, finden Sie die Preisinformation unter der FileScheduler Workflows Server Lizenztabelle.

Zur Preisinformation

Willkommen im Kunden-Login!

FileScheduler Extract Modul

Industriestandard für hochperformante und zuverlässige Extraktion von Text und Barcodeinformationen aus PDF-Dokumenten