ChatPaper.aiChatPaper

LMDX: Extração e Localização de Informações em Documentos Baseada em Modelos de Linguagem

LMDX: Language Model-based Document Information Extraction and Localization

September 19, 2023
Autores: Vincent Perot, Kai Kang, Florian Luisier, Guolong Su, Xiaoyu Sun, Ramya Sree Boppana, Zilong Wang, Jiaqi Mu, Hao Zhang, Nan Hua
cs.AI

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) revolucionaram o Processamento de Linguagem Natural (PLN), melhorando o estado da arte em muitas tarefas existentes e exibindo capacidades emergentes. No entanto, os LLMs ainda não foram aplicados com sucesso na extração de informações de documentos semi-estruturados, que está no cerne de muitos fluxos de trabalho de processamento de documentos e consiste em extrair entidades-chave de um documento visualmente rico (VRD) com base em um esquema de destino predefinido. Os principais obstáculos à adoção de LLMs nessa tarefa têm sido a ausência de codificação de layout dentro dos LLMs, crucial para uma extração de alta qualidade, e a falta de um mecanismo de fundamentação que garanta que a resposta não seja alucinada. Neste artigo, introduzimos a Extração e Localização de Informações em Documentos Baseada em Modelos de Linguagem (LMDX), uma metodologia para adaptar LLMs arbitrários para a extração de informações de documentos. O LMDX pode realizar a extração de entidades únicas, repetidas e hierárquicas, tanto com quanto sem dados de treinamento, ao mesmo tempo que fornece garantias de fundamentação e localiza as entidades dentro do documento. Em particular, aplicamos o LMDX ao LLM PaLM 2-S e o avaliamos nos benchmarks VRDU e CORD, estabelecendo um novo estado da arte e mostrando como o LMDX possibilita a criação de parsers de alta qualidade e eficientes em termos de dados.
English
Large Language Models (LLM) have revolutionized Natural Language Processing (NLP), improving state-of-the-art on many existing tasks and exhibiting emergent capabilities. However, LLMs have not yet been successfully applied on semi-structured document information extraction, which is at the core of many document processing workflows and consists of extracting key entities from a visually rich document (VRD) given a predefined target schema. The main obstacles to LLM adoption in that task have been the absence of layout encoding within LLMs, critical for a high quality extraction, and the lack of a grounding mechanism ensuring the answer is not hallucinated. In this paper, we introduce Language Model-based Document Information Extraction and Localization (LMDX), a methodology to adapt arbitrary LLMs for document information extraction. LMDX can do extraction of singular, repeated, and hierarchical entities, both with and without training data, while providing grounding guarantees and localizing the entities within the document. In particular, we apply LMDX to the PaLM 2-S LLM and evaluate it on VRDU and CORD benchmarks, setting a new state-of-the-art and showing how LMDX enables the creation of high quality, data-efficient parsers.
PDF6623February 8, 2026