ChatPaper.aiChatPaper

DocLLM: Een layout-bewust generatief taalmodel voor multimodaal documentbegrip

DocLLM: A layout-aware generative language model for multimodal document understanding

December 31, 2023
Auteurs: Dongsheng Wang, Natraj Raman, Mathieu Sibue, Zhiqiang Ma, Petr Babkin, Simerjot Kaur, Yulong Pei, Armineh Nourbakhsh, Xiaomo Liu
cs.AI

Samenvatting

Bedrijfsdocumenten zoals formulieren, facturen, bonnen, rapporten, contracten en andere soortgelijke dossiers bevatten vaak rijke semantiek op het snijvlak van tekstuele en ruimtelijke modaliteiten. De visuele aanwijzingen die worden geboden door hun complexe lay-outs spelen een cruciale rol bij het effectief begrijpen van deze documenten. In dit artikel presenteren we DocLLM, een lichtgewicht uitbreiding van traditionele grote taalmodelen (LLMs) voor redeneren over visuele documenten, waarbij zowel tekstuele semantiek als ruimtelijke lay-out in aanmerking wordt genomen. Ons model verschilt van bestaande multimodale LLMs door dure beeldencoders te vermijden en zich uitsluitend te richten op begrenzingskaderinformatie om de ruimtelijke lay-outstructuur te integreren. Specifiek wordt de kruisalignering tussen tekst en ruimtelijke modaliteiten vastgelegd door het aandachtmechanisme in klassieke transformers te ontbinden in een set ontvlochten matrices. Bovendien ontwikkelen we een pre-trainingsdoelstelling die leert om tekstsegmenten in te vullen. Deze aanpak stelt ons in staat om onregelmatige lay-outs en heterogene inhoud die vaak voorkomen in visuele documenten aan te pakken. Het vooraf getrainde model wordt verfijnd met behulp van een grootschalige instructiedataset, die vier kern taken van documentintelligentie omvat. We tonen aan dat onze oplossing SotA LLMs overtreft op 14 van de 16 datasets voor alle taken, en goed generaliseert naar 4 van de 5 voorheen onbekende datasets.
English
Enterprise documents such as forms, invoices, receipts, reports, contracts, and other similar records, often carry rich semantics at the intersection of textual and spatial modalities. The visual cues offered by their complex layouts play a crucial role in comprehending these documents effectively. In this paper, we present DocLLM, a lightweight extension to traditional large language models (LLMs) for reasoning over visual documents, taking into account both textual semantics and spatial layout. Our model differs from existing multimodal LLMs by avoiding expensive image encoders and focuses exclusively on bounding box information to incorporate the spatial layout structure. Specifically, the cross-alignment between text and spatial modalities is captured by decomposing the attention mechanism in classical transformers to a set of disentangled matrices. Furthermore, we devise a pre-training objective that learns to infill text segments. This approach allows us to address irregular layouts and heterogeneous content frequently encountered in visual documents. The pre-trained model is fine-tuned using a large-scale instruction dataset, covering four core document intelligence tasks. We demonstrate that our solution outperforms SotA LLMs on 14 out of 16 datasets across all tasks, and generalizes well to 4 out of 5 previously unseen datasets.
PDF18825December 15, 2024