Extraction d'information faiblement supervisée à partir d'images de documents manuscrits illisibles
Weakly supervised information extraction from inscrutable handwritten document images
June 12, 2023
Auteurs: Sujoy Paul, Gagan Madan, Akankshya Mishra, Narayan Hegde, Pradeep Kumar, Gaurav Aggarwal
cs.AI
Résumé
Les méthodes d'extraction d'informations de pointe sont limitées par les erreurs de reconnaissance optique de caractères (OCR). Elles fonctionnent bien pour le texte imprimé dans des documents de type formulaire, mais les documents manuscrits non structurés restent un défi. L'adaptation des modèles existants à des données d'entraînement spécifiques à un domaine est assez coûteuse, en raison de deux facteurs : 1) la disponibilité limitée des documents spécifiques au domaine (tels que les ordonnances manuscrites, les notes de laboratoire, etc.), et 2) les annotations deviennent encore plus difficiles car il faut des connaissances spécifiques au domaine pour décoder les images de documents manuscrits illisibles. Dans ce travail, nous nous concentrons sur le problème complexe de l'extraction des noms de médicaments à partir d'ordonnances manuscrites en utilisant uniquement des données faiblement étiquetées. Les données consistent en des images accompagnées de la liste des noms de médicaments qu'elles contiennent, mais pas de leur localisation dans l'image. Nous résolvons ce problème en identifiant d'abord les régions d'intérêt, c'est-à-dire les lignes de médicaments, à partir de simples étiquettes faibles, puis en injectant un modèle de langage spécifique aux médicaments appris uniquement à partir de données générées de manière synthétique. Par rapport aux méthodes de pointe disponibles sur le marché, notre approche est plus de 2,5 fois plus performante dans l'extraction des noms de médicaments à partir d'ordonnances.
English
State-of-the-art information extraction methods are limited by OCR errors.
They work well for printed text in form-like documents, but unstructured,
handwritten documents still remain a challenge. Adapting existing models to
domain-specific training data is quite expensive, because of two factors, 1)
limited availability of the domain-specific documents (such as handwritten
prescriptions, lab notes, etc.), and 2) annotations become even more
challenging as one needs domain-specific knowledge to decode inscrutable
handwritten document images. In this work, we focus on the complex problem of
extracting medicine names from handwritten prescriptions using only weakly
labeled data. The data consists of images along with the list of medicine names
in it, but not their location in the image. We solve the problem by first
identifying the regions of interest, i.e., medicine lines from just weak labels
and then injecting a domain-specific medicine language model learned using only
synthetically generated data. Compared to off-the-shelf state-of-the-art
methods, our approach performs >2.5x better in medicine names extraction from
prescriptions.