DocLLM: Un modello linguistico generativo consapevole del layout per la comprensione multimodale di documenti
DocLLM: A layout-aware generative language model for multimodal document understanding
December 31, 2023
Autori: Dongsheng Wang, Natraj Raman, Mathieu Sibue, Zhiqiang Ma, Petr Babkin, Simerjot Kaur, Yulong Pei, Armineh Nourbakhsh, Xiaomo Liu
cs.AI
Abstract
I documenti aziendali come moduli, fatture, ricevute, report, contratti e altri record simili spesso contengono una semantica ricca all'intersezione tra modalità testuali e spaziali. Gli indizi visivi offerti dai loro layout complessi svolgono un ruolo cruciale nella comprensione efficace di questi documenti. In questo articolo, presentiamo DocLLM, un'estensione leggera dei tradizionali modelli linguistici di grandi dimensioni (LLM) per il ragionamento su documenti visivi, tenendo conto sia della semantica testuale che del layout spaziale. Il nostro modello si differenzia dagli LLM multimodali esistenti evitando costosi encoder di immagini e concentrandosi esclusivamente sulle informazioni delle bounding box per incorporare la struttura del layout spaziale. Nello specifico, l'allineamento incrociato tra testo e modalità spaziali viene catturato scomponendo il meccanismo di attenzione nei trasformatori classici in un insieme di matrici disaccoppiate. Inoltre, abbiamo ideato un obiettivo di pre-addestramento che impara a riempire segmenti di testo. Questo approccio ci consente di affrontare layout irregolari e contenuti eterogenei frequentemente riscontrati nei documenti visivi. Il modello pre-addestrato viene perfezionato utilizzando un ampio dataset di istruzioni, che copre quattro compiti principali di intelligenza documentale. Dimostriamo che la nostra soluzione supera gli LLM all'avanguardia su 14 dei 16 dataset in tutti i compiti e generalizza bene su 4 dei 5 dataset precedentemente non visti.
English
Enterprise documents such as forms, invoices, receipts, reports, contracts,
and other similar records, often carry rich semantics at the intersection of
textual and spatial modalities. The visual cues offered by their complex
layouts play a crucial role in comprehending these documents effectively. In
this paper, we present DocLLM, a lightweight extension to traditional large
language models (LLMs) for reasoning over visual documents, taking into account
both textual semantics and spatial layout. Our model differs from existing
multimodal LLMs by avoiding expensive image encoders and focuses exclusively on
bounding box information to incorporate the spatial layout structure.
Specifically, the cross-alignment between text and spatial modalities is
captured by decomposing the attention mechanism in classical transformers to a
set of disentangled matrices. Furthermore, we devise a pre-training objective
that learns to infill text segments. This approach allows us to address
irregular layouts and heterogeneous content frequently encountered in visual
documents. The pre-trained model is fine-tuned using a large-scale instruction
dataset, covering four core document intelligence tasks. We demonstrate that
our solution outperforms SotA LLMs on 14 out of 16 datasets across all tasks,
and generalizes well to 4 out of 5 previously unseen datasets.