Extração de informações com supervisão fraca a partir de imagens de documentos manuscritos ilegíveis
Weakly supervised information extraction from inscrutable handwritten document images
June 12, 2023
Autores: Sujoy Paul, Gagan Madan, Akankshya Mishra, Narayan Hegde, Pradeep Kumar, Gaurav Aggarwal
cs.AI
Resumo
Os métodos de extração de informação mais avançados são limitados por erros de OCR. Eles funcionam bem para textos impressos em documentos estruturados, como formulários, mas documentos não estruturados e manuscritos ainda representam um desafio. Adaptar os modelos existentes para dados de treinamento específicos de um domínio é bastante caro, devido a dois fatores: 1) a disponibilidade limitada de documentos específicos do domínio (como prescrições manuscritas, anotações de laboratório, etc.) e 2) as anotações tornam-se ainda mais desafiadoras, pois é necessário conhecimento específico do domínio para decodificar imagens de documentos manuscritos difíceis de interpretar. Neste trabalho, focamos no problema complexo de extrair nomes de medicamentos de prescrições manuscritas usando apenas dados fracamente rotulados. Os dados consistem em imagens junto com a lista de nomes de medicamentos presentes, mas não sua localização na imagem. Resolvemos o problema primeiro identificando as regiões de interesse, ou seja, as linhas de medicamentos, apenas a partir de rótulos fracos, e depois injetando um modelo de linguagem específico para medicamentos, aprendido usando apenas dados sinteticamente gerados. Em comparação com os métodos mais avançados disponíveis, nossa abordagem tem um desempenho mais de 2,5 vezes melhor na extração de nomes de medicamentos de prescrições.
English
State-of-the-art information extraction methods are limited by OCR errors.
They work well for printed text in form-like documents, but unstructured,
handwritten documents still remain a challenge. Adapting existing models to
domain-specific training data is quite expensive, because of two factors, 1)
limited availability of the domain-specific documents (such as handwritten
prescriptions, lab notes, etc.), and 2) annotations become even more
challenging as one needs domain-specific knowledge to decode inscrutable
handwritten document images. In this work, we focus on the complex problem of
extracting medicine names from handwritten prescriptions using only weakly
labeled data. The data consists of images along with the list of medicine names
in it, but not their location in the image. We solve the problem by first
identifying the regions of interest, i.e., medicine lines from just weak labels
and then injecting a domain-specific medicine language model learned using only
synthetically generated data. Compared to off-the-shelf state-of-the-art
methods, our approach performs >2.5x better in medicine names extraction from
prescriptions.