ChatPaper.aiChatPaper

LMDX: Извлечение и локализация информации в документах на основе языковых моделей

LMDX: Language Model-based Document Information Extraction and Localization

September 19, 2023
Авторы: Vincent Perot, Kai Kang, Florian Luisier, Guolong Su, Xiaoyu Sun, Ramya Sree Boppana, Zilong Wang, Jiaqi Mu, Hao Zhang, Nan Hua
cs.AI

Аннотация

Крупные языковые модели (LLM) произвели революцию в области обработки естественного языка (NLP), улучшив современные результаты по многим существующим задачам и продемонстрировав новые возможности. Однако LLM до сих пор не были успешно применены для извлечения информации из полуструктурированных документов, что является ключевым элементом многих процессов обработки документов и заключается в извлечении ключевых сущностей из визуально насыщенных документов (VRD) в соответствии с заданной целевой схемой. Основными препятствиями для использования LLM в этой задаче являются отсутствие кодирования макета в LLM, что критически важно для качественного извлечения, и отсутствие механизма проверки, гарантирующего, что ответ не является вымышленным. В данной статье мы представляем методологию Language Model-based Document Information Extraction and Localization (LMDX), которая позволяет адаптировать произвольные LLM для извлечения информации из документов. LMDX способна извлекать единичные, повторяющиеся и иерархические сущности как с обучающими данными, так и без них, обеспечивая гарантии проверки и локализуя сущности в документе. В частности, мы применяем LMDX к модели PaLM 2-S и оцениваем её на наборах данных VRDU и CORD, устанавливая новый современный стандарт и демонстрируя, как LMDX позволяет создавать высококачественные и эффективные по данным парсеры.
English
Large Language Models (LLM) have revolutionized Natural Language Processing (NLP), improving state-of-the-art on many existing tasks and exhibiting emergent capabilities. However, LLMs have not yet been successfully applied on semi-structured document information extraction, which is at the core of many document processing workflows and consists of extracting key entities from a visually rich document (VRD) given a predefined target schema. The main obstacles to LLM adoption in that task have been the absence of layout encoding within LLMs, critical for a high quality extraction, and the lack of a grounding mechanism ensuring the answer is not hallucinated. In this paper, we introduce Language Model-based Document Information Extraction and Localization (LMDX), a methodology to adapt arbitrary LLMs for document information extraction. LMDX can do extraction of singular, repeated, and hierarchical entities, both with and without training data, while providing grounding guarantees and localizing the entities within the document. In particular, we apply LMDX to the PaLM 2-S LLM and evaluate it on VRDU and CORD benchmarks, setting a new state-of-the-art and showing how LMDX enables the creation of high quality, data-efficient parsers.
PDF6623December 15, 2024