LMDX: Taalmodel-gebaseerde extractie en lokalisatie van documentinformatie
LMDX: Language Model-based Document Information Extraction and Localization
September 19, 2023
Auteurs: Vincent Perot, Kai Kang, Florian Luisier, Guolong Su, Xiaoyu Sun, Ramya Sree Boppana, Zilong Wang, Jiaqi Mu, Hao Zhang, Nan Hua
cs.AI
Samenvatting
Grote Taalmodellen (LLM's) hebben een revolutie teweeggebracht in Natural Language Processing (NLP), waarbij ze de state-of-the-art op veel bestaande taken hebben verbeterd en nieuwe, emergente capaciteiten hebben getoond. Echter, LLM's zijn nog niet succesvol toegepast op semi-gestructureerde documentinformatie-extractie, wat een kernonderdeel is van veel documentverwerkingsworkflows en bestaat uit het extraheren van sleutelentiteiten uit een visueel rijk document (VRD) op basis van een vooraf gedefinieerd doelschema. De belangrijkste obstakels voor de adoptie van LLM's in deze taak zijn het ontbreken van lay-outcodering binnen LLM's, wat cruciaal is voor een hoogwaardige extractie, en het ontbreken van een grondingsmechanisme dat ervoor zorgt dat het antwoord niet verzonnen is. In dit artikel introduceren we Language Model-based Document Information Extraction and Localization (LMDX), een methodologie om willekeurige LLM's aan te passen voor documentinformatie-extractie. LMDX kan extractie uitvoeren van enkelvoudige, herhaalde en hiërarchische entiteiten, zowel met als zonder trainingsdata, terwijl het grondingsgaranties biedt en de entiteiten binnen het document lokaliseert. In het bijzonder passen we LMDX toe op het PaLM 2-S LLM en evalueren we het op de VRDU en CORD benchmarks, waarbij we een nieuwe state-of-the-art vaststellen en laten zien hoe LMDX de creatie van hoogwaardige, data-efficiënte parsers mogelijk maakt.
English
Large Language Models (LLM) have revolutionized Natural Language Processing
(NLP), improving state-of-the-art on many existing tasks and exhibiting
emergent capabilities. However, LLMs have not yet been successfully applied on
semi-structured document information extraction, which is at the core of many
document processing workflows and consists of extracting key entities from a
visually rich document (VRD) given a predefined target schema. The main
obstacles to LLM adoption in that task have been the absence of layout encoding
within LLMs, critical for a high quality extraction, and the lack of a
grounding mechanism ensuring the answer is not hallucinated. In this paper, we
introduce Language Model-based Document Information Extraction and Localization
(LMDX), a methodology to adapt arbitrary LLMs for document information
extraction. LMDX can do extraction of singular, repeated, and hierarchical
entities, both with and without training data, while providing grounding
guarantees and localizing the entities within the document. In particular, we
apply LMDX to the PaLM 2-S LLM and evaluate it on VRDU and CORD benchmarks,
setting a new state-of-the-art and showing how LMDX enables the creation of
high quality, data-efficient parsers.