ChatPaper.aiChatPaper

DocLLM: Un modelo generativo de lenguaje consciente del diseño para la comprensión multimodal de documentos

DocLLM: A layout-aware generative language model for multimodal document understanding

December 31, 2023
Autores: Dongsheng Wang, Natraj Raman, Mathieu Sibue, Zhiqiang Ma, Petr Babkin, Simerjot Kaur, Yulong Pei, Armineh Nourbakhsh, Xiaomo Liu
cs.AI

Resumen

Los documentos empresariales, como formularios, facturas, recibos, informes, contratos y otros registros similares, suelen contener una semántica rica en la intersección de las modalidades textual y espacial. Las señales visuales que ofrecen sus diseños complejos desempeñan un papel crucial para comprender estos documentos de manera efectiva. En este artículo, presentamos DocLLM, una extensión ligera de los modelos de lenguaje grandes (LLMs) tradicionales para razonar sobre documentos visuales, teniendo en cuenta tanto la semántica textual como la disposición espacial. Nuestro modelo se diferencia de los LLMs multimodales existentes al evitar el uso de codificadores de imágenes costosos y centrarse exclusivamente en la información de las cajas delimitadoras para incorporar la estructura del diseño espacial. Específicamente, la alineación cruzada entre las modalidades textual y espacial se captura descomponiendo el mecanismo de atención en los transformadores clásicos en un conjunto de matrices desacopladas. Además, diseñamos un objetivo de preentrenamiento que aprende a rellenar segmentos de texto. Este enfoque nos permite abordar diseños irregulares y contenido heterogéneo que se encuentran frecuentemente en los documentos visuales. El modelo preentrenado se ajusta utilizando un conjunto de datos de instrucciones a gran escala, que cubre cuatro tareas principales de inteligencia documental. Demostramos que nuestra solución supera a los LLMs de última generación en 14 de 16 conjuntos de datos en todas las tareas, y generaliza bien en 4 de 5 conjuntos de datos previamente no vistos.
English
Enterprise documents such as forms, invoices, receipts, reports, contracts, and other similar records, often carry rich semantics at the intersection of textual and spatial modalities. The visual cues offered by their complex layouts play a crucial role in comprehending these documents effectively. In this paper, we present DocLLM, a lightweight extension to traditional large language models (LLMs) for reasoning over visual documents, taking into account both textual semantics and spatial layout. Our model differs from existing multimodal LLMs by avoiding expensive image encoders and focuses exclusively on bounding box information to incorporate the spatial layout structure. Specifically, the cross-alignment between text and spatial modalities is captured by decomposing the attention mechanism in classical transformers to a set of disentangled matrices. Furthermore, we devise a pre-training objective that learns to infill text segments. This approach allows us to address irregular layouts and heterogeneous content frequently encountered in visual documents. The pre-trained model is fine-tuned using a large-scale instruction dataset, covering four core document intelligence tasks. We demonstrate that our solution outperforms SotA LLMs on 14 out of 16 datasets across all tasks, and generalizes well to 4 out of 5 previously unseen datasets.
PDF18825December 15, 2024