Suche
Filterung

Bereiche

Branchen

Themen

OCR – wenn aus Bildern Text wird

Eine effektive Geschäftslösung zur Automatisierung der Datenextraktion

Wer schon einmal ein Dokument abschreiben musste, weil es als digitale und bearbeitbare Kopie auf dem Computer nicht vorlag, einen ganzen Papierstapel manuell durchsuchen musste, um eine bestimmte Information in einem Dokument zu finden, oder in unzähligen Ablagen nach einem Dokument fanden musste, dessen Ablageort er vergessen hatte, weiß, wie Zeit und vor allem Nerven raubend ein solcher Vorgang ist. Schätzungen gehen davon aus, dass täglich weltweit Millionen von Arbeitsstunden auf diese Weise vergeudet werden.

Mit der optischen Zeichenerkennung (Optical Character Recognition – OCR) können gescannte Bilder in Text umgewandelt und aus Papierdokumenten bearbeitbare, durchsuchbare digitale Dokumente gemacht werden. OCR trägt dazu bei, den zum Speichern von Dokumenten erforderlichen physischen Speicherplatz zu reduzieren, Arbeitsabläufe mit Dokumenten erheblich zu verbessern und das Risiko von verlorenen oder falsch abgelegten Dokumenten zu minimieren.

Aber was ist OCR?

OCR ist eine Technologie, die eingesetzt werden kann, um geschriebenen Text in Bildern, z. B. in gescannten Dokumenten und Fotos, zu erkennen und in maschinenlesbare Textdaten umzuwandeln.

Dazu analysiert OCR die Hell-Dunkel-Muster, aus denen die Buchstaben und Zahlen bestehen, um das gescannte Bild in Text umzuwandeln. OCR-Systeme müssen Zeichen in verschiedenen Schriftarten erkennen. Dabei helfen definierte Regeln dem System, das, was es auf dem Bild sieht, den richtigen Buchstaben oder Zahlen zuzuordnen. Heutige OCR-Programme erkennen den Text Zeichen für Zeichen so schnell, dass das Ergebnis sofort angezeigt wird. Damit OCR optimal funktioniert, ist es wichtig, dass eine möglichst klare Version des Dokuments gescannt wird. Verschwommener Text oder Markierungen auf der Kopie können zu Fehlern führen.

Vollständiges und zonales OCR

Man unterscheidet zwischen vollständigem OCR und zonalem OCR. Vollständiges OCR liest das gesamte Dokument. Anschließend wird eine Textebene über das PDF-Dokument gelegt. Mit den Textebenen kann der gesamte Inhalt des Dokuments durchsucht werden. Dies eignet sich am besten für Berichte, Verträge oder andere Dokumente mit wichtigen Wörtern oder Sätzen, die durchsucht werden können. Beim zonalen OCR werden in Dokumenten Zonen oder Bereiche erstellt, um bestimmte Ränder für ganze Seiten festzulegen. Dann werden die Daten aus den festgelegten Bereichen extrahiert. Alles, was außerhalb der Zone liegt, kann nicht gelesen werden.

Die Fähigkeit von OCR, maschinengedruckten Text aus einem digitalen Bild zu extrahieren, ist nur ein Aspekt einer Datenerfassung. Daten können mittlerweile aus Dokumenten in unterschiedlichen Formaten extrahiert werden, wie z. B. handgeschriebener Text (ICR), Kontrollkästchen (OMR) oder Strichcodes.

Whitepaper "Intelligent Process Automation für Unternehmens­entscheider"

Erfahren Sie, wofür Sie Intelligent Process Automation in Ihrem Unternehmen einsetzen können, welche Kosten bei der Einführung entstehen und welchen ROI Sie erwarten können.

Von der Telegrafie-Technik zum Smartphone-Scan

Die optische Zeichenerkennung hat ihren Ursprung in der Telegrafie-Technik und den Lesegeräten für Blinde. Die erste OCR-ähnliche Maschine, die Zeichen las und sie in einen Standard-Telegrafencode umwandelte, wurde von Emanuel Goldberg erfunden. Etwa zur gleichen Zeit erfand Edmund Fournier d’Albe das Optophon. Dabei handelte es sich um einen Handscanner, der beim Überfahren einer Seite Töne erzeugte, die bestimmten Buchstaben oder Zeichen entsprachen.

Um 1930 war es wieder Goldberg, der eine Maschine zum Durchsuchen von Mikrofilmarchiven mit optischer Codeerkennung entwickelte – die „Statistische Maschine“. 1974 entwickelte die Kurzweil Computer Products Inc. die Omnifont OCR weiter, eine Technologie, die Text in den meisten Schriftarten erkennen kann. Auch Firmengründer Ray Kurzweil sah die beste Anwendungsmöglichkeit für die OCR-Technologie darin, dass ein Computer blinden Text laut vorliest. Das fertige Produkt wurde am 13. Januar 1976 auf einer Pressekonferenz vorgestellt. Zwei Jahre später erschien eine kommerzielle Version des OCR-Computerprogramms. Erster Kunde war LexisNexis, die das Programm nutzten, um juristische Dokumente und Nachrichten für ihre Online-Datenbanken hochzuladen. Nachdem Kurzweil Computer Products an Xerox verkauft worden war, wurde das Unternehmen als Scansoft ausgegliedert und fusionierte später mit Nuance Communications. Die Erfindung der Smartphones eröffnete OCR ganz neue Anwendungsmöglichkeiten, da mit der Kamera des Geräts Texte erfasst und extrahiert werden können. Geräte ohne OCR-Funktionen verwenden eine OCR-API, um den Text aus der vom Gerät erfassten und bereitgestellten Bilddatei zu extrahieren.

Welche Vorteile bietet OCR?

Heute kann die ausgefeilte OCR-Technologie selbst äußerst komplexe Dokumente schnell und mit wenigen Fehlern konvertieren. Wenn Dokumente von ihrem ursprünglichen Format in das neue Format konvertiert werden, sehen sie genauso aus, wie das Original, wobei alle Formatierungen exakt repliziert werden.

Generell profitieren Unternehmen vom Einsatz der OCR-Technologie durch

  • das Wegfallen der manuellen Dateneingabe,
  • die schnellere Verarbeitung von Daten mit weniger Ressourcen,
  • Reduzierung von physischem Speicherplatz,
  • die Zentralisierung von indizierten Daten und Inhalten,
  • einen erhöhten Schutz vor Bränden, Einbruch oder Verlust und
  • eine höhere Produktivität, da Mitarbeiter stets über die aktuelle und genaueste Dokumentenversion verfügen, wenn sie diese benötigen.

Dokumente können mit OCR gescannt und in durchsuchbaren Text umgewandelt werden, so dass Informationen schneller gefunden werden können. OCR-Lösungen können gescannten Text in Audiodateien umwandeln, die sich die Mitarbeiter schon auf dem Weg zur Arbeit anhören können. Zudem wird damit blinden und sehbehinderten Menschen der Zugang zu geschriebenem Text ermöglicht. OCR-Lösungen können Dokumente aus mehr als 180 Fremdsprachen konvertieren.

Welchen Wert hat OCR für die Prozessautomatisierung?

Mittlerweile möchten die meisten Unternehmen ihre Geschäftsprozesse automatisieren und digitalisieren sowie Big Data nutzen. Eines der Haupthindernisse für dieses Ziel sind die Kosten und die Komplexität der Speicherung und Analyse von Dokumenten. Selbst in der heutigen digitalen Welt verarbeiten viele Unternehmen immer noch große Mengen an Dokumenten wie Rechnungen in Papierform. OCR ist ein Schlüsselmerkmal jeder guten Robotic Process Automation (RPA)-Lösung. Im Zusammenspiel mit Künstlicher Intelligenz (KI) wird die Fähigkeit von OCR deutlich verbessert, Dokumente mit hoher Genauigkeit und sehr schnell zu scannen. Eingebunden in den automatisierten Workflow komplexer Geschäftsprozesse können zeitintensive Aufgaben, die bisher mit der manuellen Umwandelung von Dokumenten wie z.B. Rechnungen in digital verarbeitbare Daten verbunden sind, wesentlich schneller und effizienter erledigt werden. OCR in Verbindung mit RPA ermöglicht es Unternehmen, ein größeres Volumen ihrer operativen Geschäftsprozesse zu automatisieren, insbesondere solche, die immer noch stark von gescannten Dokumenten wie von Kunden ausgefüllten Formularen abhängen.

OCR Geschäftsfälle im RPA-Projekt

Man unterscheidet generell zwei Arten von OCR-Geschäftsfällen im RPA-Bereich. Einmal geht es darum, unstrukturierte Daten aus gescannten Dokumenten in strukturierte, digitalisierte Daten umzuwandeln, um sie in digitale Geschäftsprozesse zu integrieren. Die extrahierten Informationen können dann an beliebige Unternehmensanwendungen wie CRM-, ERP- oder andere Legacy-Systeme übertragen werden. Zum anderen geht es um komplexere Automatisierungsfunktionen, beispielsweise die Verwendung von Oberflächenkonnektivität, um Anwendungen von Remote-Computern zu automatisieren. Hier wird OCR benutzt, um das Bild zu lesen und den erforderlichen Text aus dem Bildschirmbild oder der Simulation der Anwendung zu extrahieren.

RPA-Einführungsvideo

YouTube

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

RPA-OCR-Anwendungsfälle

Ein typischer RPA-OCR-Anwendungsfall ist das Extrahieren von Informationen aus einem gescannten Kundenantragsformular und das Einfügen der extrahierten Daten in ein CRM-System. Mittels Textanalyse können die Daten kategorisiert werden, woraufhin die Automatisierung einsetzt und die CRM-Anwendung aktualisiert. Eine RPA OCR-Lösung kann die Identität eines Kunden anhand seines Personalausweises oder Führerscheins überprüfen.

OCR in Finance

Im Finanzbereich kann die Kombination von RPA mit OCR-Funktionen Aufgaben, wie das Erfassen von Rechnungsdaten durch das Extrahieren relevanter Felder wie Lieferantendaten und Einkaufsinformationen, übernehmen, um Stammdatensätze zu erstellen und Rechnungen mit Bestellungen abzugleichen. Mit Hilfe von OCR lassen sich versicherungsbezogene Daten aus Pässen, Geburtsurkunden, Führerscheinen oder Krankenakten extrahieren. Mit diesen extrahierten Daten können Bots beispielsweise Ansprüche registrieren und bearbeiten oder Betrugsversuche erkennen. OCR kann Daten aus dem Zahlungsverlauf der Kunden, Steuererklärungen, Kreditkartenschulden, Hypotheken, Darlehen extrahieren, die dann von Bots zur Verarbeitung und Validierung von Krediten sowie zur Verwaltung von Kredit- und Debitkarten verwendet werden.

OCR in HR

Im Personalbereich extrahiert OCR Kandidatendaten aus deren Papier-Lebensläufen, Referenzschreiben und Bildungszertifikaten, damit RPA-Bots die Suche nach Kandidaten automatisieren und ihren Beschäftigungsverlauf überprüfen können. OCR kann die Ausgaben der Mitarbeiter wie Kassenbelege, Bordkarten, Kontoauszüge scannen, damit Bots die einzelnen Ausgaben mit Unternehmensregeln und externen Ausgabenvorschriften abgleichen können, um die Einhaltung zu gewährleisten. OCR ermöglicht es, Daten aus einer beträchtlichen Menge an Dokumenten über Personalbeschaffung, Gehaltsabrechnung, Mitarbeiterarchive, Organisationsrichtlinien zu extrahieren und den Dokumentationsprozess in der Personalabteilung zu automatisieren. Im Gesundheitswesen kann OCR im Rahmen der Patientenregistrierung eingesetzt werden, um die Informationen aus dem Patienteneingabeformular zu erfassen, damit der Bot die Daten ohne menschliches Eingreifen in das System eingeben kann.

Factsheet “Robotic Process Automation”

Jetzt RPA Factsheet als PDF herunterladen

Herausforderungen für OCR im RPA-Projekt

Das Ziel jeder RPA-Initiative ist es, Aufgaben zu automatisieren und menschliche Eingriffe und Fehler zu begrenzen. Dazu müssen die Daten aber korrekt und genau sein, da sie höchstwahrscheinlich nicht von einem menschlichen Benutzer überprüft werden. Das stellt OCR bei der Integration in ein RPA-Projekt aber vor große Herausforderungen. Eine falsche Seitenausrichtung und Schräglage des Dokuments beim Scannen bereitet OCR nach wie vor Probleme. Deshalb sollte die OCR-Lösung mit einem Bildkorrekturtool kombiniert werden, um das Bild zu entzerren und richtig auszurichten. Viele handschriftliche Dokumente enthalten inkonsistenten Text, z. B. durcheinander geratene Wörter und eine schlechte Handschrift. Nur in Kombination mit Natural Language Processing (NLP)– und Machine Learning (ML)-Algorithmen kann OCR das einzelne Wort basierend auf dem allgemeinen Kontext des Textes korrekt interpretieren, bevor es in das RPA-System zur weiteren Verarbeitung übergeben wird. Dokumente wie Personalausweise und Führerscheine erzeugen aufgrund ihrer Oberflächenbeschaffenheit Spiegelungen und helle Flecken, wenn sie mit Handykameras aufgenommen werden. Das erhöht die Fehlerwahrscheinlichkeit beim Scannen. OCR-Tools sollten daher über eine integrierte Lichtreflexion und Unschärfekorrektur verfügen, um Scans mit besserer Qualität zu erstellen.

Technologische Fortschritte, die die heutige OCR-Technologie ermöglicht haben

Im Rahmen von Computer-Vision erkennt OCR zunächst Zeichen nacheinander. Mittels Bildklassifizierung wird anschließend jedes Zeichen identifiziert. Funktionieren diese beiden Schritte erfolgreich, zeigt OCR genaue Ergebnisse an. NLP hat zahlreiche Algorithmen entwickelt, die verwendet werden können, um Fehler bei der Zeichenerkennung mit probabilistischen Ansätzen zu korrigieren. So können trotz fehlender Zeichen Wörter anhand des Kontextes abgeschätzt werden. OCR nutzt Deep Learning-Algorithmen, um Zeichen mit unterschiedlichen Schriftarten zu erkennen. Jedes Zeichen kann in einer Vielzahl von Formen geschrieben werden und ein großer beschrifteter Datensatz hilft der OCR-Software, die Zeichen trotz unterschiedlicher Schriftarten zu identifizieren. Durch das Erkennen von Mustern in Trainingsdatensätzen kann OCR Fehler erkennen und die Fehler korrigieren. Da OCR nur unstrukturierte Zeichen ausgibt, bedarf es der Kombination maschineller Lerntechnologien und OCR, um aus den Dokumenten strukturierte Daten zu generieren.

Weissenberg Intelligence – Ihr kompetenter Partner in allen Fragen der digitalen Transformation

Möchten auch Sie die Wettbewerbsfähigkeit Ihres Unternehmens im digitalen Zeitalter stärken? Wir beraten Sie gern zur digitalen Transformation Ihres Unternehmens.

Was ist intelligentes OCR?

Während frühe OCR-Systeme darauf ausgelegt waren, mit einer bestimmten Schriftart zu arbeiten, die speziell für diesen Zweck erstellt wurde, können einige moderne OCR-Systeme sogar die Handschrift von Personen erkennen. Diese Technologie wird als intelligente Zeichenerkennung (ICR) bezeichnet. Sie setzt auf eine maschinelle Lerntechnik, bekannt als neuronales Netzwerk. So kann sie im Laufe der Zeit ihre Leistung durch Lernen und Korrigieren immer weiter optimieren. Neuronale Netzwerke nutzen dazu riesige Mengen handgeschriebener Trainingsdaten und vergleichen jedes einzelne Zeichen mit den Trainingsdaten, um die beste Übereinstimmung zu finden und die genaueste Transkription zu erstellen. Auf diese Weise können sogar schlampige handschriftliche Texte erkannt werden, die selbst für Menschen schwer lesbar sind.

ICR beschleunigt den Transaktionsprozess bei handschriftlichen Dokumenten

ICR überwindet die Hürde vieler RPA-Initiativen, große Mengen handschriftlicher Dokumente zu scannen, zu digitalisieren und zu transkribieren. Viele von Verbrauchern ausgefüllte Formulare, wie z. B. Anmeldeformulare und Kreditanträge, liegen nur handschriftlich in Papierform vor und müssen mit viel Zeit und manuellem Aufwand in das System eingegeben werden. Indem handschriftliche Formulare und Dokumente mit ICR digitalisiert werden, kann der Transkriptionsprozess durchgängig automatisiert werden. Gleichwohl muss ICR, obwohl es in der Lage ist, eine Vielzahl von Dokumenten zu verarbeiten, darauf trainiert werden, Handschriften zu erkennen, bevor es in RPA-Projekte integriert werden kann. Je mehr Trainingsdaten verwendet werden, desto besser. Am besten eignen sich für das Training des ICR-Systems echte Daten, die bereits im Unternehmen verwendet werden und die von Kunden stammen.

Fazit

OCR ist eine Geschäftslösung zur Automatisierung der Datenextraktion. Dazu werden Dokumente oder Bilddateien gescannt, um den gedruckten oder geschriebenen Text anschließend in eine maschinenlesbare Form umzuwandeln, die für die Bearbeitung oder Suche verwendet werden kann. Eine häufige Anwendung der OCR-Technologie ist die automatisierte Umwandlung eines bildbasierten PDF, TIFF oder JPG in eine textbasierte, maschinenlesbare Datei. Heutzutage bieten die Lösungen eine nahezu perfekte OCR-Genauigkeit. Da sich RPA in Richtung kognitiver Automatisierung weiterentwickelt, die wesentlich komplexere Aufgaben bewältigt, wird OCR auch in Zukunft eine Schlüsselrolle in der Automatisierung spielen. Denn das Wesen kognitiver Technologien ist das Nachahmen menschlicher Fähigkeiten. OCR übernimmt dabei das Lesen der Dokumente und Bilder.

Milad Safar

Managing Partner und Autor zahlreicher Veröffentlichungen zum Themenfeld Digitalisierung

Das könnte Sie interessieren

Newsletter Anmeldung

Anfrage senden