DocLLM : Un modèle de langage génératif sensible à la mise en page pour la compréhension multimodale de documents
DocLLM: A layout-aware generative language model for multimodal document understanding
December 31, 2023
Auteurs: Dongsheng Wang, Natraj Raman, Mathieu Sibue, Zhiqiang Ma, Petr Babkin, Simerjot Kaur, Yulong Pei, Armineh Nourbakhsh, Xiaomo Liu
cs.AI
Résumé
Les documents d'entreprise tels que les formulaires, factures, reçus, rapports, contrats et autres enregistrements similaires véhiculent souvent une sémantique riche à l'intersection des modalités textuelles et spatiales. Les indices visuels offerts par leurs mises en page complexes jouent un rôle crucial dans la compréhension efficace de ces documents. Dans cet article, nous présentons DocLLM, une extension légère des grands modèles de langage (LLM) traditionnels pour le raisonnement sur des documents visuels, prenant en compte à la fois la sémantique textuelle et la disposition spatiale. Notre modèle se distingue des LLM multimodaux existants en évitant les encodeurs d'images coûteux et se concentre exclusivement sur les informations de boîtes englobantes pour intégrer la structure de mise en page spatiale. Plus précisément, l'alignement croisé entre les modalités textuelles et spatiales est capturé en décomposant le mécanisme d'attention des transformateurs classiques en un ensemble de matrices désentrelacées. De plus, nous concevons un objectif de pré-entraînement qui apprend à remplir des segments de texte. Cette approche nous permet de traiter les mises en page irrégulières et le contenu hétérogène fréquemment rencontrés dans les documents visuels. Le modèle pré-entraîné est affiné à l'aide d'un vaste ensemble de données d'instructions, couvrant quatre tâches principales de l'intelligence documentaire. Nous démontrons que notre solution surpasse les LLM de pointe sur 14 des 16 ensembles de données pour toutes les tâches, et généralise bien à 4 des 5 ensembles de données précédemment invisibles.
English
Enterprise documents such as forms, invoices, receipts, reports, contracts,
and other similar records, often carry rich semantics at the intersection of
textual and spatial modalities. The visual cues offered by their complex
layouts play a crucial role in comprehending these documents effectively. In
this paper, we present DocLLM, a lightweight extension to traditional large
language models (LLMs) for reasoning over visual documents, taking into account
both textual semantics and spatial layout. Our model differs from existing
multimodal LLMs by avoiding expensive image encoders and focuses exclusively on
bounding box information to incorporate the spatial layout structure.
Specifically, the cross-alignment between text and spatial modalities is
captured by decomposing the attention mechanism in classical transformers to a
set of disentangled matrices. Furthermore, we devise a pre-training objective
that learns to infill text segments. This approach allows us to address
irregular layouts and heterogeneous content frequently encountered in visual
documents. The pre-trained model is fine-tuned using a large-scale instruction
dataset, covering four core document intelligence tasks. We demonstrate that
our solution outperforms SotA LLMs on 14 out of 16 datasets across all tasks,
and generalizes well to 4 out of 5 previously unseen datasets.