Schwach überwachte Informationsextraktion aus schwer lesbaren handschriftlichen Dokumentbildern
Weakly supervised information extraction from inscrutable handwritten document images
June 12, 2023
Autoren: Sujoy Paul, Gagan Madan, Akankshya Mishra, Narayan Hegde, Pradeep Kumar, Gaurav Aggarwal
cs.AI
Zusammenfassung
State-of-the-art-Methoden zur Informationsextraktion werden durch OCR-Fehler eingeschränkt. Sie funktionieren gut für gedruckten Text in formularähnlichen Dokumenten, doch unstrukturierte, handgeschriebene Dokumente bleiben nach wie vor eine Herausforderung. Die Anpassung bestehender Modelle an domänenspezifische Trainingsdaten ist recht kostspielig, und zwar aufgrund zweier Faktoren: 1) die begrenzte Verfügbarkeit domänenspezifischer Dokumente (wie handgeschriebene Rezepte, Labornotizen usw.) und 2) die zusätzliche Schwierigkeit bei der Annotation, da domänenspezifisches Wissen erforderlich ist, um schwer lesbare handgeschriebene Dokumentbilder zu entschlüsseln. In dieser Arbeit konzentrieren wir uns auf das komplexe Problem der Extraktion von Medikamentennamen aus handgeschriebenen Rezepten unter Verwendung von nur schwach annotierten Daten. Die Daten bestehen aus Bildern zusammen mit der Liste der darin enthaltenen Medikamentennamen, jedoch ohne deren Position im Bild. Wir lösen das Problem, indem wir zunächst die relevanten Regionen, d. h. die Zeilen mit Medikamentennamen, allein aus den schwachen Labels identifizieren und dann ein domänenspezifisches Medikamenten-Sprachmodell einfügen, das nur mit synthetisch generierten Daten trainiert wurde. Im Vergleich zu Standard-State-of-the-Art-Methoden erzielt unser Ansatz eine mehr als 2,5-fach bessere Leistung bei der Extraktion von Medikamentennamen aus Rezepten.
English
State-of-the-art information extraction methods are limited by OCR errors.
They work well for printed text in form-like documents, but unstructured,
handwritten documents still remain a challenge. Adapting existing models to
domain-specific training data is quite expensive, because of two factors, 1)
limited availability of the domain-specific documents (such as handwritten
prescriptions, lab notes, etc.), and 2) annotations become even more
challenging as one needs domain-specific knowledge to decode inscrutable
handwritten document images. In this work, we focus on the complex problem of
extracting medicine names from handwritten prescriptions using only weakly
labeled data. The data consists of images along with the list of medicine names
in it, but not their location in the image. We solve the problem by first
identifying the regions of interest, i.e., medicine lines from just weak labels
and then injecting a domain-specific medicine language model learned using only
synthetically generated data. Compared to off-the-shelf state-of-the-art
methods, our approach performs >2.5x better in medicine names extraction from
prescriptions.