DocLLM: Ein layoutbewusstes generatives Sprachmodell für multimodales Dokumentenverständnis
DocLLM: A layout-aware generative language model for multimodal document understanding
December 31, 2023
Autoren: Dongsheng Wang, Natraj Raman, Mathieu Sibue, Zhiqiang Ma, Petr Babkin, Simerjot Kaur, Yulong Pei, Armineh Nourbakhsh, Xiaomo Liu
cs.AI
Zusammenfassung
Unternehmensdokumente wie Formulare, Rechnungen, Quittungen, Berichte, Verträge und ähnliche Aufzeichnungen enthalten oft eine reiche Semantik an der Schnittstelle zwischen textuellen und räumlichen Modalitäten. Die visuellen Hinweise, die durch ihre komplexen Layouts geboten werden, spielen eine entscheidende Rolle beim effektiven Verständnis dieser Dokumente. In diesem Artikel stellen wir DocLLM vor, eine leichtgewichtige Erweiterung traditioneller großer Sprachmodelle (LLMs) für die Verarbeitung visueller Dokumente, die sowohl textuelle Semantik als auch räumliches Layout berücksichtigt. Unser Modell unterscheidet sich von bestehenden multimodalen LLMs dadurch, dass es teure Bildkodierer vermeidet und sich ausschließlich auf Begrenzungsrahmeninformationen konzentriert, um die räumliche Layoutstruktur einzubeziehen. Insbesondere wird die Kreuzausrichtung zwischen textuellen und räumlichen Modalitäten durch die Zerlegung des Aufmerksamkeitsmechanismus in klassischen Transformern in eine Reihe von entkoppelten Matrizen erfasst. Darüber hinaus entwickeln wir ein Pre-Training-Ziel, das das Einfügen von Textsegmenten erlernt. Dieser Ansatz ermöglicht es uns, unregelmäßige Layouts und heterogene Inhalte, die häufig in visuellen Dokumenten vorkommen, zu bewältigen. Das vortrainierte Modell wird mit einem groß angelegten Instruktionsdatensatz feinabgestimmt, der vier zentrale Aufgaben der Dokumentenintelligenz abdeckt. Wir zeigen, dass unsere Lösung SotA-LLMs in 14 von 16 Datensätzen über alle Aufgaben hinweg übertrifft und sich gut auf 4 von 5 zuvor unbekannten Datensätzen verallgemeinert.
English
Enterprise documents such as forms, invoices, receipts, reports, contracts,
and other similar records, often carry rich semantics at the intersection of
textual and spatial modalities. The visual cues offered by their complex
layouts play a crucial role in comprehending these documents effectively. In
this paper, we present DocLLM, a lightweight extension to traditional large
language models (LLMs) for reasoning over visual documents, taking into account
both textual semantics and spatial layout. Our model differs from existing
multimodal LLMs by avoiding expensive image encoders and focuses exclusively on
bounding box information to incorporate the spatial layout structure.
Specifically, the cross-alignment between text and spatial modalities is
captured by decomposing the attention mechanism in classical transformers to a
set of disentangled matrices. Furthermore, we devise a pre-training objective
that learns to infill text segments. This approach allows us to address
irregular layouts and heterogeneous content frequently encountered in visual
documents. The pre-trained model is fine-tuned using a large-scale instruction
dataset, covering four core document intelligence tasks. We demonstrate that
our solution outperforms SotA LLMs on 14 out of 16 datasets across all tasks,
and generalizes well to 4 out of 5 previously unseen datasets.