FileScheduler Extract Modul

Smarte, inhaltsbezogene PDF-Verarbeitung 

Eine Erweiterung für FileScheduler Workflows Server
Zur kostenlosen Beratung

Haben Sie einen hohen manuellen Aufwand bei der Verarbeitung von PDF-Dokumenten?

Nutzen Sie FileScheduler Extract und einen maßgeschneiderten FileScheduler Workflow um wiederkehrende Arbeitsschritte zu genau nach Ihren Anforderungen zu automatisieren!

FileScheduler Extract Modul

Smarte, inhaltsbezogene Verarbeitung von Dokumenten
- Automatisiertes Lesen von Textinhalten und Barcodes von PDF-Seiten -

FileScheduler PDF-Workflows bieten bereits zahlreiche Möglichkeiten, um Dokumente auf Basis ihrer individuellen Struktur zu erkennen und dementsprechend individuell zu verarbeiten. Das FS Extract Modul besteht u.a. aus einer Funktionsbibliothek die diese Möglichkeiten um Funktionen zur performanten Textlesung und Barcodelesung auf PDF-Seiten erweitert.

Lesezonen

Mit dem FS Extract Designer können rechteckige Bereiche (Lesezonen) auf PDF-Seiten definiert werden, in denen interessante Textinhalte oder Barcodewerte (z.B. Adressen, Rechnungsnummern, Kapitelüberschriften etc.) ausgelesen (extrahiert) werden sollen und speichern diese als Leselayouts ab.
Die so definierten „Leselayouts“ können anschließend in automatisierten FileScheduler Workflows eingelesen und genutzt werden. Beispielsweise für die automatische "Erkennung" oder "Klassifizierung" von Dokumenten auf Grund von Textinhalten, Barcodewerten, Seitenformaten etc. Weiterhin können alle gelesenen Informationen beliebig im Workflow genutzt werden, z.B. zur inhaltsbezogenen Zerteilung (split) von Serienbriefen.
Wichtig: Die Text- und Barcode-Lesung in PDF-Dokumenten erfolgt nicht mittels OCR/ICR (optical charakter recognition) und ist daher äußerst performant und zuverlässig. Die Barcodelesung ist auch für die Verarbeitung von eingescannten Dokumenten einsetzbar, die als PDF- oder Bild-Dateien vorliegen!

Einige Anwendungsbereiche

Die mit dem FS Extract Designer erstellten Lesevorlagen können in FileScheduler Workflows eingelesen und zur automatischen Verarbeitung von PDF-Dateien verwendet werden. Dabei können grundsätzlich alle nachfolgend beschriebenen Funktionen / Einsatzbereiche innerhalb Ihres maßgeschneiderten Workflows beliebig eingesetzt / kombiniert werden.

Einige Beispiele dazu …

Dynamisches Trennen / Aufteilen von PDF-Dokumenten

Details aufklappen/zuklappen

Dynamische Trennung (split) von PDFs in zwei oder mehrere Ausgabedateien. Auf Basis der „gelesenen“ Informationen kann der zugehörige FileScheduler Workflow die nach Ihren Anforderungen optimalen Positionen (z.B. am Kapitelende) für die Teilung des Dokuments ermitteln, das Dokument so in einzelne Bereiche aufteilen und diese als einzelne PDF-Dateien ausgeben. Das ursprüngliche PDF-Dokument bleibt dabei natürlich unverändert erhalten. Somit kann der Workflow jede Datei nach ihrem individuellen Aufbau / Struktur vollautomatisch verarbeiten.

Seiten mit bestimmten Textinhalten oder Barcodes können beispielsweise auch als „Trennblatt“ genutzt werden, so daß die Aufteilung der PDF-Datei genau an diesen Seiten erfolgt. Bei Bedarf kann der Workflow diese Trennblätter auch in die erstellten PDF-Dateien einsetzen oder an den Anfang jeder erstellten PDF-Datei ein individuelles Deckblatt einfügen (z.B. mit Text „Teil 1 von 5“).

Entfernen „störender“ Seiten aus PDF-Dokumenten

Details aufklappen/zuklappen

Auf Basis der, auf den PDF-Seiten „gelesenen“ Informationen (Texte, Barcodes) und anderen Eigenschaften der PDF-Seiten, kann der FileScheduler Workflow „störende“ bzw. „überflüssige“ Seiten erkennen und aus dem PDF entfernen oder auch durch Leerseiten, Füllseiten, Werbeseiten und andere ersetzen. Bei Bedarf kann das PDF, abhängig von der nachfolgenden Verarbeitung (z.B. Druckausgabe), entsprechend vollautomatisch angepaßt bzw. „korrigiert“ werden. Beispielsweise durch Einbringen leerer Rückseiten für duplex-Druck oder Anhängen von Füllseiten für Broschürendruck.

Das Entfernen nicht benötigter bzw. „störender“ Seiten vor dem Druck spart Material und reduziert Verbrauchskosten.

Erkennen und Verarbeiten unterschiedlicher Dokumentenarten

Details aufklappen/zuklappen

Auf Basis der „gelesenen“ Informationen kann der zugehörige FileScheduler Workflow PDF-Dateien zuverlässig in unterschiedliche Dokumentenarten, wie beispielsweise „Rechnungen“, „Lieferscheine“, „Bestellung von Firma X“ etc., einteilen. Je nach vorliegender Dokumentenart kann die PDF-Datei dann ganz nach Ihren Anforderungen verarbeitet werden. In einem FileScheduler Workflow können bis zu 500 verschiedene Dokumentenarten erkannt und individuell verarbeitet, aufbereitet, gedruckt oder verteilt werden.

Dieses Verfahren kann für die Verarbeitung einzelner PDF-Dateien (einzelne Rechnung, einzelne Lieferscheine etc.) genutzt werden, als auch für die Verarbeitung verschiedener Dokumentenarten innerhalb einer großen Serienbrief-PDF-Datei genutzt werden. Beispielsweise, wenn ihre Serienbrief-Dateien sowohl einzelne Rechnungsschreiben als auch Gutschriften, Mahnungen etc. enthalten und diese unterschiedlich verarbeitet werden sollen.

Dynamische Zuweisung von Papierfächern im Druckprozess

Details aufklappen/zuklappen

Der FileScheduler Workflow liest die von ihnen vorgegebenen Informationen auf jeder PDF-Seite aus und prüft, ob es sich um eine Seite handelt, die mit spezifischen Einstellungen (z.B. speziellem Papierfach) gedruckt werden soll, oder eine generelle Umschaltung von Druckeinstellungen für die Folgeseiten durchgeführt werden soll. Damit können bestimmte Seiten oder auch Seitenbereiche einer PDF-Datei vollautomatisch mit unterschiedlichen Druckeinstellungen geduckt werden. Angenommen Sie haben einen Serienbrief, der zahlreiche Rechnungsschreiben enthält. Die erste Seite jeder Rechnung soll auf Papier aus Fach1 gedruckt werden, alle anderen Seiten auf Standardpapier aus Fach2.

Wichtig: Da die Textlesung nicht auf OCR basiert, können auch „unsichtbare“ Texte (weiße Schrift auf weißem Hintergrund) von PDF-Seiten gelesen werden und zur Steuerung der Druckausgabe genutzt werden.

Technische Details

Klicken Sie auf die einzelnen Register, um Details anzuzeigen.

Lesen von Textinhalten

Performantes Lesen von Textinhalten auf PDF-Seiten

Mit dem FileScheduler Extract Modul kann ein FileScheduler PDF-Workflow PDF-Dokumente bis zu 100.000 Seiten verarbeiten. Da die Textlesung auf PDF-Seiten nicht auf optischer Zeichenerkennung (OCR) basiert, erfolgt die Verarbeitung hochperformant und zuverlässig. Im Vergleich zu OCR/ICR ergebenen sich zahlreiche Vorteile
  • deutlich höhere Lesegeschwindigkeit
  • Leseergebnis ist unabhängig von der optischen Qualität und der Helligkeit der Texte
  • Leseergebnis ist unabhängig von der Textfarbe und Hintergrundfarbe
  • Somit kann auch weiße Schrift auf weißem Hintergrund gelesen werden
  • Leseergebnis ist unabhängig von der Zeichengröße
  • Leseergebnis ist unabhängig von der Schriftart
  • Leseergebnis ist unabhängig davon, ob ein Bild oder eine Grafik den Text überlagert/verdeckt

Lesen von Barcodewerten

Performantes Lesen von Barcodeinhalten auf PDF-Seiten
Das FileScheduler Extract Modul ist für die sichere und performante Verarbeitung großer PDF-Dateien (mehrere tausend Seiten) optimiert. Auch das Auslesen von Barcodewerten erfolgt mit hoher Geschwindigkeit und Genauigkeit. Durch Autokorrektur-Algorithmen können selbst verzerrte oder teilweise zerstörte Barcodes gelesen werden. Zudem wird bei jeder Barcodelesung ein „Zuverlässigkeitswert“ ermittelt, auf den im FileScheduler Workflow entsprechend reagiert werden kann.
  • Verarbeitung von mehr als 35 Barcodetypen und Subtypen
  • Auto-Korrekturalgorithmen zur automatischen Verbesserung der Leseegebnisse bei schlechter Barcodequalität
  • Lesen von gedrehten Barcodes
  • Unterstützung aller Formen der Barcodeeinbringung in PDF-Dateien (z.B. eingebrachte Barcode-Images, Barcodes auf Basis von Barcode-Fonts, Barcodes, die durch grafische Operatoren gezeichnet werden, etc.)

Scanverarbeitung

Oftmals enthalten die von Scannern erzeugten PDF-Dokumente nur die „Fotos“ der gescannten Dokumentenseiten. Die Textlesung des FS Extract Moduls setzt voraus, daß die PDF-Dokumente Textinformationen enthalten. Für gescannte PDF-Dokumente, die nur Bilder enthalten, kann die Textlesung des FS Extract Moduls nicht genutzt werden. Gescannte Dokumente, die einen OCR-Prozess durchlaufen haben, bei dem die mittels OCR gelesenen Textinhalte hinzugefügt wurden, können in der Regel mit dem FS Extract Modul verarbeitet werden.

Hinweis: Sie können einfach prüfen, ob die Textlesung ihrer gescannten PDFs möglich ist. Öffnen Sie die gescannte PDF-Datei in einem PDF-Viewer und versuchen Sie mit Hilfe eines Text-Auswahlwerkzeugs Worte oder Sätze zu markieren.
Wenn das gelingt, kann der Text auch von FS Extract gelesen werden. Wenn Sie sich nicht sicher sind, senden Sie Ihre Datei einfach zur Prüfung an Info@dev4print.com. Selbstverständlich werden Ihre Daten absolut vertraulich behandelt.

Im Gegensatz zur Textlesung kann die Barcodelesung auch mit Fotos / eingescannten Bildern und Dokumenten (PDF, TIF, PNG, JPG, BMP) arbeiten. So kann die FS Extract Barcodelesung auch mit PDFs genutzt werden, die durch Einscannen erstellt wurden. So können beispielsweise Papierordner, deren Register oder auch Pläne in einzelnen Dokumenten eingescannten wurden, automatisiert wieder zu einem Gesamt-PDF zusammengesetzt werden.

Lizenzierung

Lizenzierung des FileScheduler Extract – Moduls
Das FS Extract – Modul besteht aus einer optionalen Lizenz für den FS Extract Designer und einer Lizenz-Erweiterung für die zugehörige FileScheduler Workflows Installation. Für jeden Rechner (bzw. virtuelle Maschine) auf dem die FS Extract – Funktionalität in automatisierten FileScheduler Workflows genutzt werden soll, wird eine FS Extract Modul – Lizenz benötigt. Wenn Sie auch mit dem optionalen FS Extract Designer arbeiten möchten, benötigen Sie eine FS Extract Designer Lizenz für jeden Rechner (bzw. virtuelle Maschine), auf dem der FS Extract Designer installiert werden soll. Die Lizenz ist damit
  • unabhängig von der Anzahl der Workflows, die die Extract Funktionen des Moduls nutzen
  • unabhängig vom verarbeiteten Datenvolumen (z.B. Seitenanzahl, PDF-Anzahl, etc.)

Systemvoraussetzungen

Da das FileScheduler Extract – Modul in einer FileScheduler Workflows Installation mit deren Systemanforderungen genutzt wird, bestehen darüberhinaus keine speziellen Anforderungen.

Die Installation des Moduls benötigt ca. 30 MBytes freier Festplattenspeicher auf dem Laufwerk, auf dem FileScheduler Workflows Server installiert ist.

Preise

Wenn Sie FS Extract in Verbindung mit ihrem FileScheduler Workflows Server nutzen möchten, finden Sie die Preisinformation unter der FileScheduler Workflows Server Preistabelle.
Zur Preisinformation
Arbeitszeiten
Mo-Fr: 9 - 17 Uhr
Telefon
08131 356 4200
© Copyright 2019 - Dev4Print Software GmbH - All Rights Reserved