Zwak begeleide informatie-extractie uit ondoorgrondelijke handgeschreven documentafbeeldingen
Weakly supervised information extraction from inscrutable handwritten document images
June 12, 2023
Auteurs: Sujoy Paul, Gagan Madan, Akankshya Mishra, Narayan Hegde, Pradeep Kumar, Gaurav Aggarwal
cs.AI
Samenvatting
State-of-the-art methoden voor informatie-extractie worden beperkt door OCR-fouten. Ze werken goed voor gedrukte tekst in formulierachtige documenten, maar ongestructureerde, handgeschreven documenten blijven een uitdaging. Het aanpassen van bestaande modellen aan domeinspecifieke trainingsdata is vrij kostbaar, vanwege twee factoren: 1) de beperkte beschikbaarheid van domeinspecifieke documenten (zoals handgeschreven recepten, labnotities, etc.), en 2) annotaties worden nog uitdagender omdat domeinspecifieke kennis nodig is om onleesbare handgeschreven documentafbeeldingen te decoderen. In dit werk richten we ons op het complexe probleem van het extraheren van medicijnnamen uit handgeschreven recepten met alleen zwak gelabelde data. De data bestaat uit afbeeldingen samen met de lijst van medicijnnamen erin, maar niet hun locatie in de afbeelding. We lossen het probleem op door eerst de regio's van belang te identificeren, d.w.z. medicijnregels, alleen op basis van zwakke labels, en vervolgens een domeinspecifiek medicijn-taalmodel in te brengen dat is geleerd met alleen synthetisch gegenereerde data. Vergeleken met standaard state-of-the-art methoden presteert onze aanpak meer dan 2,5x beter in het extraheren van medicijnnamen uit recepten.
English
State-of-the-art information extraction methods are limited by OCR errors.
They work well for printed text in form-like documents, but unstructured,
handwritten documents still remain a challenge. Adapting existing models to
domain-specific training data is quite expensive, because of two factors, 1)
limited availability of the domain-specific documents (such as handwritten
prescriptions, lab notes, etc.), and 2) annotations become even more
challenging as one needs domain-specific knowledge to decode inscrutable
handwritten document images. In this work, we focus on the complex problem of
extracting medicine names from handwritten prescriptions using only weakly
labeled data. The data consists of images along with the list of medicine names
in it, but not their location in the image. We solve the problem by first
identifying the regions of interest, i.e., medicine lines from just weak labels
and then injecting a domain-specific medicine language model learned using only
synthetically generated data. Compared to off-the-shelf state-of-the-art
methods, our approach performs >2.5x better in medicine names extraction from
prescriptions.