Estrazione di informazioni con supervisione debole da immagini di documenti manoscritti illeggibili
Weakly supervised information extraction from inscrutable handwritten document images
June 12, 2023
Autori: Sujoy Paul, Gagan Madan, Akankshya Mishra, Narayan Hegde, Pradeep Kumar, Gaurav Aggarwal
cs.AI
Abstract
I metodi all'avanguardia per l'estrazione di informazioni sono limitati dagli errori di OCR. Funzionano bene per testi stampati in documenti strutturati come moduli, ma i documenti non strutturati e manoscritti rimangono ancora una sfida. Adattare i modelli esistenti a dati di addestramento specifici per un dominio è piuttosto costoso, a causa di due fattori: 1) la disponibilità limitata di documenti specifici per il dominio (come prescrizioni manoscritte, appunti di laboratorio, ecc.) e 2) le annotazioni diventano ancora più complesse poiché è necessaria una conoscenza specifica del dominio per decodificare immagini di documenti manoscritti illeggibili. In questo lavoro, ci concentriamo sul problema complesso di estrarre i nomi dei farmaci da prescrizioni manoscritte utilizzando solo dati debolmente etichettati. I dati consistono in immagini insieme all'elenco dei nomi dei farmaci presenti, ma non alla loro posizione nell'immagine. Risolviamo il problema identificando prima le regioni di interesse, ovvero le righe dei farmaci, partendo solo da etichette deboli, e poi integrando un modello linguistico specifico per il dominio dei farmaci, appreso utilizzando solo dati generati sinteticamente. Rispetto ai metodi all'avanguardia disponibili, il nostro approccio ottiene prestazioni >2,5 volte migliori nell'estrazione dei nomi dei farmaci dalle prescrizioni.
English
State-of-the-art information extraction methods are limited by OCR errors.
They work well for printed text in form-like documents, but unstructured,
handwritten documents still remain a challenge. Adapting existing models to
domain-specific training data is quite expensive, because of two factors, 1)
limited availability of the domain-specific documents (such as handwritten
prescriptions, lab notes, etc.), and 2) annotations become even more
challenging as one needs domain-specific knowledge to decode inscrutable
handwritten document images. In this work, we focus on the complex problem of
extracting medicine names from handwritten prescriptions using only weakly
labeled data. The data consists of images along with the list of medicine names
in it, but not their location in the image. We solve the problem by first
identifying the regions of interest, i.e., medicine lines from just weak labels
and then injecting a domain-specific medicine language model learned using only
synthetically generated data. Compared to off-the-shelf state-of-the-art
methods, our approach performs >2.5x better in medicine names extraction from
prescriptions.