Extracción de información débilmente supervisada a partir de imágenes de documentos manuscritos inescrutables
Weakly supervised information extraction from inscrutable handwritten document images
June 12, 2023
Autores: Sujoy Paul, Gagan Madan, Akankshya Mishra, Narayan Hegde, Pradeep Kumar, Gaurav Aggarwal
cs.AI
Resumen
Los métodos de extracción de información más avanzados están limitados por errores de OCR. Funcionan bien para texto impreso en documentos con formato, pero los documentos no estructurados y manuscritos siguen siendo un desafío. Adaptar los modelos existentes a datos de entrenamiento específicos del dominio es bastante costoso, debido a dos factores: 1) la disponibilidad limitada de documentos específicos del dominio (como recetas médicas manuscritas, notas de laboratorio, etc.), y 2) las anotaciones se vuelven aún más desafiantes ya que se necesita conocimiento específico del dominio para decodificar imágenes de documentos manuscritos inescrutables. En este trabajo, nos enfocamos en el problema complejo de extraer nombres de medicamentos de recetas médicas manuscritas utilizando únicamente datos débilmente etiquetados. Los datos consisten en imágenes junto con la lista de nombres de medicamentos presentes, pero no su ubicación en la imagen. Resolvemos el problema identificando primero las regiones de interés, es decir, las líneas de medicamentos, a partir de etiquetas débiles, y luego inyectando un modelo de lenguaje específico del dominio para medicamentos, aprendido utilizando únicamente datos generados sintéticamente. En comparación con los métodos estándar más avanzados, nuestro enfoque supera en más de 2.5 veces la extracción de nombres de medicamentos en recetas.
English
State-of-the-art information extraction methods are limited by OCR errors.
They work well for printed text in form-like documents, but unstructured,
handwritten documents still remain a challenge. Adapting existing models to
domain-specific training data is quite expensive, because of two factors, 1)
limited availability of the domain-specific documents (such as handwritten
prescriptions, lab notes, etc.), and 2) annotations become even more
challenging as one needs domain-specific knowledge to decode inscrutable
handwritten document images. In this work, we focus on the complex problem of
extracting medicine names from handwritten prescriptions using only weakly
labeled data. The data consists of images along with the list of medicine names
in it, but not their location in the image. We solve the problem by first
identifying the regions of interest, i.e., medicine lines from just weak labels
and then injecting a domain-specific medicine language model learned using only
synthetically generated data. Compared to off-the-shelf state-of-the-art
methods, our approach performs >2.5x better in medicine names extraction from
prescriptions.