Neuer Filter in der Scanner App Docutain
28. September 2022 by Simeon

Wie in der Scanner App Docutain ein neuer Scanfilter entwickelt wurde

Werkstudent Simeon berichtet von der Entwicklung des Filters "Illustration"

Möglicherweise ist Ihnen schon unser Filter aufgefallen, der unter dem Namen „Illustration“ in Docutain zu finden ist. In diesem Artikel möchten wir berichten was überhaupt die Aufgabe von Docutains Filtern ist, wie sie funktionieren und natürlich was hinter dem neuen Filter steckt.

Sehen Sie sich unser Docutain SDK an
Integrieren Sie hochwertiges Dokumentenscannen, Texterkennung und Datenextraktion in Ihre eigenen Apps. Wenn Sie mehr über das Docutain SDK erfahren möchten, kontaktieren Sie uns jederzeit per SDK@Docutain.com.

Die Aufgabe der Filter

Wenn man mit dem Smartphone im Alltag Dokumente abfotografiert, um sie zu digitalisieren, ist das in erster Linie natürlich überaus praktisch. Man hat es eigentlich immer bei sich und anschließend kann man das Dokument direkt über das Smartphone verschicken oder in der Dokumentenmanagement-App Docutain archivieren. Ganz anders bei der Nutzung sperriger und stationärer Dokumentenscanner.

Einen Nachteil haben einfache Dokumentenfotos jedoch: Sie sind in der Regel nicht perfekt ausgeleuchtet. Wer regelmäßig Dokumente abfotografiert, kennt das bestimmt. Da ist es im Raum zu dunkel, das Papier liegt nicht flach auf oder das Smartphone wirft einen Schatten auf das Dokument... Bei klassischen Dokumentenscannern hat man es da meist einfacher. Man legt das Dokument in den Scanner und drückt es spätestens mit der Klappe flach. Anschließend strahlt der Scanner das Dokument aus nächster Nähe hell und gleichmäßig an. Resultat ist ein perfekt ausgeleuchteter Scan, welcher in etwa so aussehen sollte wie eine digitale Version des Dokuments am Rechner.

Dieses Level möchten wir für unsere mobilen Scans am Smartphone mit Docutain natürlich auch erreichen. Denn zugegeben, so wirken Scans meist doch etwas professioneller und lassen sich besser lesen als zum Beispiel die Fotos unter dem Licht der Schreibtischlampe. Genau an dieser Stelle schaffen unsere Filter in Docutain Abhilfe. Ziel ist es, dass diese das Dokumentenfoto so filtern, dass sie auf dem gleichen Niveau sind wie klassische Dokumentenscans. Oder besser noch, dass sie wie das ursprüngliche Dokument in digitaler Form aussehen.

Das ist nicht immer eine einfache Aufgabe, denn wir wollen ein breites Spektrum an Beleuchtungsartefakten oder auch Beschädigungen am Dokument entfernen. Dazu zählen unter anderem eine ungleichmäßige Ausleuchtung, Schattierungen, Schatten oder Farbstiche sowie Falten, Knitter oder Flecken auf dem Dokument:

übliche Beleuchtungsartefakte wie Farbstiche, Schatten oder verdunkelnde Schattierungen
Übliche Beleuchtungsartefakte wie Farbstiche (u.a. links), Schatten (mittig) oder verdunkelnde Schattierungen (rechts)

Wie funktionieren die Scan Filter?

Prinzipiell funktionieren die Filter über verschiedenste Methoden der Bildverarbeitung.

Die allgemeine Idee ist, dass erkannt werden muss, welche Strukturen auf dem Foto auf den Inhalt des Dokuments zurückzuführen sind. Dafür wird in der Regel der Beleuchtungseinfluss abgeschätzt und anschließend aus dem Originalfoto herausgerechnet, sodass nur noch der Inhalt zu sehen ist. Wenn bei der Schätzung alles richtig funktioniert hat, werden Schattierungen, Schatten und Farbstiche entfernt und das Dokument ist gleichmäßig, ausreichend und in neutraler Farbe ausgeleuchtet:

Fotos mit herausgerechneter Beleuchtung
Fotos mit herausgerechneter Beleuchtung

Die Schwierigkeit ist vor allem die korrekte Schätzung der Beleuchtung. Es gibt bestimmte Annahmen über die Größe und Struktur von gedruckten Inhalten und der Beleuchtung. Relativ einfach ist es beispielsweise bei reinen Textdokumenten, da der Text dort meistens eher klein ist und ausgeprägte Ränder besitzt. Die Beleuchtung ist tendenziell mehr von glatten und großflächigen Verläufen geprägt. Mit geeigneten Bildverarbeitungsmethoden kann der Text so aus einem Dokumentenfoto entfernt werden, sodass nur noch das beleuchtete, leere Blatt verbleibt. Daraus lässt sich bei einfarbigem Papier direkt die geschätzte Beleuchtung ableiten.

Vorher-Nachher Vergleich Filter
Das Originalfoto (links), die geschätzte Beleuchtung ohne Text (mittig) und das korrigierte Dokument (rechts)

Leider ist es nicht immer so einfach und so gibt es viele Szenarien, in welchen diese Annahmen nicht ganz zutreffend sind. Starke Schatten sind häufig noch ein Problem, ebenso wie illustrierte Dokumente, die nicht nur Text beinhalten, sondern beispielsweise auch Fotos, Diagramme oder größere Designelemente. Gerade letztere können jegliche Form annehmen und sind deutlich weniger vorhersehbar als Text. So kann es passieren, dass Schatten als Teil des Dokuments erkannt werden und nicht herausgerechnet werden, oder dass ein Foto auf dem Dokument als Beleuchtungsartefakt erkannt wird und dementsprechend beschädigt wird.

Wofür ist der neue Filter da?

Unsere bisherigen Filter haben bei illustrierten Dokumenten häufig zu fehlerhaften Korrekturen geführt, welche größere Illustrationen vor allem zu stark aufgehellt haben und sie nicht mehr ganz originalgetreu aussehen ließen.

An dieser Stelle haben wir angesetzt, denn neben der geringeren Ästhetik des Scans können in den Illustrationen durchaus auch wichtige Informationen liegen, die durch eine ungeeignete Filterung eventuell verloren gehen könnten. Daher haben wir uns für den neuen Filter mit vielen unterschiedlichen Möglichkeiten auseinandergesetzt, die Beleuchtungsartefakte herausrechnen zu können ohne dabei die Illustrationen zu beschädigen.

Heraus kam ein Filter, der Illustrationen deutlich natürlicher wirken lässt als in unseren bisherigen Filtern und die Entfernung von Beleuchtungsartefakten weiterhin mit Bravour meistert. Der Fokus liegt dabei auf Dokumenten aus weißem Papier, da die Schätzung der Beleuchtung vor allem in diesem Fall gut funktioniert. Handelt es sich um Dokumente auf buntem Papier, sorgt der Filter dennoch für ein optisch aufgebessertes Erscheinungsbild mit stärkeren Kontrasten:

Ergebnis des neuen Filters bei illustriertem Dokument
Ergebnis des neuen Filters bei illustriertem Dokument

Besonders stolz sind wir auch darauf, dass die Filter bei illustrierten Dokumenten Ergebnisse liefern, die bei unseren Mitbewerbern derzeit nicht möglich sind. Das nachfolgende Beispiel zeigt den Vergleich zu den Dokumentenfiltern von Adobe Scan und Microsoft Lens:

Mitbewerbervergleich Filter
Originalfoto, Docutain, Adobe Scan, Microsoft Lens (von links nach rechts)

Insgesamt ist es auch heute noch sehr schwierig, für jedes Dokument in jeder Beleuchtungssituation perfekte Ergebnisse liefern zu können. Daher kann es in sehr schwierigen Szenarien immer noch passieren, dass man noch einmal selbst nachbessern und zum Beispiel für eine bessere Ausleuchtung sorgen muss.

Wir sind überzeugt, dass wir mit unserem neuen Filter Ihr Smartphone noch näher an die Qualität konventioneller Dokumentenscanner heranbringen konnten. Testen Sie unseren neuen Filter doch einfach mal aus und machen Sie sich ein Bild von ihm!

Weitere spannende Funktionen der Docutain PDF Scanner App und einen Erfahrungsbericht unseres Werkstudenten können Sie den folgenden Artikeln entnehmen:

Sehen Sie sich unser Docutain SDK an
Integrieren Sie hochwertiges Dokumentenscannen, Texterkennung und Datenextraktion in Ihre eigenen Apps. Wenn Sie mehr über das Docutain SDK erfahren möchten, werden Sie einen Blick in die Entwickler Dokumentation oder kontaktieren Sie uns jederzeit per SDK@Docutain.com.

Ihr Kontakt zu Docutain


Erzählen Sie unserem Kollegen Harry Beck, wie das Docutain SDK Sie bei Ihrem Vorhaben unterstützen kann. Wir freuen uns über Ihre Anfrage, telefonisch oder über unser Kontaktformular.