ChatPaper.aiChatPaper

LMDX: Extracción y Localización de Información en Documentos Basada en Modelos de Lenguaje

LMDX: Language Model-based Document Information Extraction and Localization

September 19, 2023
Autores: Vincent Perot, Kai Kang, Florian Luisier, Guolong Su, Xiaoyu Sun, Ramya Sree Boppana, Zilong Wang, Jiaqi Mu, Hao Zhang, Nan Hua
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) han revolucionado el Procesamiento del Lenguaje Natural (NLP), mejorando el estado del arte en muchas tareas existentes y exhibiendo capacidades emergentes. Sin embargo, los LLM aún no se han aplicado con éxito en la extracción de información de documentos semiestructurados, que es fundamental en muchos flujos de trabajo de procesamiento de documentos y consiste en extraer entidades clave de un documento visualmente enriquecido (VRD, por sus siglas en inglés) dado un esquema objetivo predefinido. Los principales obstáculos para la adopción de LLM en esta tarea han sido la ausencia de codificación de diseño dentro de los LLM, crucial para una extracción de alta calidad, y la falta de un mecanismo de fundamentación que garantice que la respuesta no sea alucinada. En este artículo, presentamos la Extracción y Localización de Información en Documentos basada en Modelos de Lenguaje (LMDX, por sus siglas en inglés), una metodología para adaptar LLM arbitrarios para la extracción de información en documentos. LMDX puede realizar la extracción de entidades únicas, repetidas y jerárquicas, tanto con como sin datos de entrenamiento, mientras proporciona garantías de fundamentación y localiza las entidades dentro del documento. En particular, aplicamos LMDX al LLM PaLM 2-S y lo evaluamos en los benchmarks VRDU y CORD, estableciendo un nuevo estado del arte y mostrando cómo LMDX permite la creación de analizadores de alta calidad y eficientes en el uso de datos.
English
Large Language Models (LLM) have revolutionized Natural Language Processing (NLP), improving state-of-the-art on many existing tasks and exhibiting emergent capabilities. However, LLMs have not yet been successfully applied on semi-structured document information extraction, which is at the core of many document processing workflows and consists of extracting key entities from a visually rich document (VRD) given a predefined target schema. The main obstacles to LLM adoption in that task have been the absence of layout encoding within LLMs, critical for a high quality extraction, and the lack of a grounding mechanism ensuring the answer is not hallucinated. In this paper, we introduce Language Model-based Document Information Extraction and Localization (LMDX), a methodology to adapt arbitrary LLMs for document information extraction. LMDX can do extraction of singular, repeated, and hierarchical entities, both with and without training data, while providing grounding guarantees and localizing the entities within the document. In particular, we apply LMDX to the PaLM 2-S LLM and evaluate it on VRDU and CORD benchmarks, setting a new state-of-the-art and showing how LMDX enables the creation of high quality, data-efficient parsers.
PDF6623December 15, 2024