LMDX: Sprachmodell-basierte Extraktion und Lokalisierung von Dokumentinformationen

Zusammenfassung

Große Sprachmodelle (LLMs) haben die Verarbeitung natürlicher Sprache (NLP) revolutioniert, indem sie den Stand der Technik bei vielen bestehenden Aufgaben verbessert und emergente Fähigkeiten gezeigt haben. Allerdings wurden LLMs noch nicht erfolgreich auf die Extraktion von Informationen aus halbstrukturierten Dokumenten angewendet, die im Kern vieler Dokumentverarbeitungsprozesse steht und darin besteht, Schlüsselentitäten aus visuell reichhaltigen Dokumenten (VRDs) gemäß einem vordefinierten Zielschema zu extrahieren. Die Haupthemmnisse für die Anwendung von LLMs bei dieser Aufgabe waren das Fehlen einer Layoutkodierung innerhalb der LLMs, die für eine hochwertige Extraktion entscheidend ist, sowie das Fehlen eines Verankerungsmechanismus, der sicherstellt, dass die Antwort nicht halluziniert wird. In diesem Artikel stellen wir Language Model-based Document Information Extraction and Localization (LMDX) vor, eine Methode zur Anpassung beliebiger LLMs für die Extraktion von Dokumentinformationen. LMDX kann die Extraktion von einzelnen, wiederholten und hierarchischen Entitäten durchführen, sowohl mit als auch ohne Trainingsdaten, und bietet dabei Verankerungsgarantien und lokalisiert die Entitäten innerhalb des Dokuments. Insbesondere wenden wir LMDX auf das PaLM 2-S LLM an und evaluieren es anhand der VRDU- und CORD-Benchmarks, wodurch ein neuer Stand der Technik gesetzt wird und gezeigt wird, wie LMDX die Erstellung von hochwertigen, dateneffizienten Parsern ermöglicht.

English

Large Language Models (LLM) have revolutionized Natural Language Processing (NLP), improving state-of-the-art on many existing tasks and exhibiting emergent capabilities. However, LLMs have not yet been successfully applied on semi-structured document information extraction, which is at the core of many document processing workflows and consists of extracting key entities from a visually rich document (VRD) given a predefined target schema. The main obstacles to LLM adoption in that task have been the absence of layout encoding within LLMs, critical for a high quality extraction, and the lack of a grounding mechanism ensuring the answer is not hallucinated. In this paper, we introduce Language Model-based Document Information Extraction and Localization (LMDX), a methodology to adapt arbitrary LLMs for document information extraction. LMDX can do extraction of singular, repeated, and hierarchical entities, both with and without training data, while providing grounding guarantees and localizing the entities within the document. In particular, we apply LMDX to the PaLM 2-S LLM and evaluate it on VRDU and CORD benchmarks, setting a new state-of-the-art and showing how LMDX enables the creation of high quality, data-efficient parsers.

LMDX: Sprachmodell-basierte Extraktion und Lokalisierung von Dokumentinformationen

LMDX: Language Model-based Document Information Extraction and Localization

Zusammenfassung

Support