Слабо контролируемое извлечение информации из неразборчивых изображений рукописных документов
Weakly supervised information extraction from inscrutable handwritten document images
June 12, 2023
Авторы: Sujoy Paul, Gagan Madan, Akankshya Mishra, Narayan Hegde, Pradeep Kumar, Gaurav Aggarwal
cs.AI
Аннотация
Современные методы извлечения информации ограничены ошибками OCR. Они хорошо работают с печатным текстом в структурированных документах, таких как формы, однако неструктурированные рукописные документы по-прежнему остаются сложной задачей. Адаптация существующих моделей к доменно-специфичным обучающим данным является весьма затратной из-за двух факторов: 1) ограниченной доступности доменно-специфичных документов (например, рукописных рецептов, лабораторных записей и т.д.) и 2) сложности аннотирования, поскольку для расшифровки неразборчивых рукописных изображений документов требуются доменно-специфичные знания. В данной работе мы сосредоточились на сложной задаче извлечения названий лекарств из рукописных рецептов, используя только слабо размеченные данные. Данные состоят из изображений и списка названий лекарств, но без указания их местоположения на изображении. Мы решаем эту задачу, сначала определяя области интереса, то есть строки с названиями лекарств, используя только слабые метки, а затем внедряя доменно-специфичную языковую модель лекарств, обученную исключительно на синтетически сгенерированных данных. По сравнению с готовыми современными методами наш подход показывает более чем 2,5-кратное улучшение в извлечении названий лекарств из рецептов.
English
State-of-the-art information extraction methods are limited by OCR errors.
They work well for printed text in form-like documents, but unstructured,
handwritten documents still remain a challenge. Adapting existing models to
domain-specific training data is quite expensive, because of two factors, 1)
limited availability of the domain-specific documents (such as handwritten
prescriptions, lab notes, etc.), and 2) annotations become even more
challenging as one needs domain-specific knowledge to decode inscrutable
handwritten document images. In this work, we focus on the complex problem of
extracting medicine names from handwritten prescriptions using only weakly
labeled data. The data consists of images along with the list of medicine names
in it, but not their location in the image. We solve the problem by first
identifying the regions of interest, i.e., medicine lines from just weak labels
and then injecting a domain-specific medicine language model learned using only
synthetically generated data. Compared to off-the-shelf state-of-the-art
methods, our approach performs >2.5x better in medicine names extraction from
prescriptions.