ChatPaper.aiChatPaper

DocLLM: Um modelo de linguagem generativo consciente do layout para compreensão multimodal de documentos

DocLLM: A layout-aware generative language model for multimodal document understanding

December 31, 2023
Autores: Dongsheng Wang, Natraj Raman, Mathieu Sibue, Zhiqiang Ma, Petr Babkin, Simerjot Kaur, Yulong Pei, Armineh Nourbakhsh, Xiaomo Liu
cs.AI

Resumo

Documentos empresariais, como formulários, faturas, recibos, relatórios, contratos e outros registros semelhantes, frequentemente carregam uma semântica rica na interseção das modalidades textual e espacial. Os indicadores visuais oferecidos por seus layouts complexos desempenham um papel crucial na compreensão eficaz desses documentos. Neste artigo, apresentamos o DocLLM, uma extensão leve dos modelos de linguagem grandes (LLMs) tradicionais para raciocínio sobre documentos visuais, levando em consideração tanto a semântica textual quanto o layout espacial. Nosso modelo difere dos LLMs multimodais existentes ao evitar codificadores de imagem dispendiosos e focar exclusivamente nas informações de caixas delimitadoras para incorporar a estrutura do layout espacial. Especificamente, o alinhamento cruzado entre as modalidades textual e espacial é capturado pela decomposição do mecanismo de atenção em transformadores clássicos em um conjunto de matrizes desacopladas. Além disso, elaboramos um objetivo de pré-treinamento que aprende a preencher segmentos de texto. Essa abordagem nos permite lidar com layouts irregulares e conteúdo heterogêneo frequentemente encontrados em documentos visuais. O modelo pré-treinado é ajustado usando um grande conjunto de dados de instruções, abrangendo quatro tarefas principais de inteligência documental. Demonstramos que nossa solução supera os LLMs de última geração (SotA) em 14 de 16 conjuntos de dados em todas as tarefas e generaliza bem para 4 de 5 conjuntos de dados previamente não vistos.
English
Enterprise documents such as forms, invoices, receipts, reports, contracts, and other similar records, often carry rich semantics at the intersection of textual and spatial modalities. The visual cues offered by their complex layouts play a crucial role in comprehending these documents effectively. In this paper, we present DocLLM, a lightweight extension to traditional large language models (LLMs) for reasoning over visual documents, taking into account both textual semantics and spatial layout. Our model differs from existing multimodal LLMs by avoiding expensive image encoders and focuses exclusively on bounding box information to incorporate the spatial layout structure. Specifically, the cross-alignment between text and spatial modalities is captured by decomposing the attention mechanism in classical transformers to a set of disentangled matrices. Furthermore, we devise a pre-training objective that learns to infill text segments. This approach allows us to address irregular layouts and heterogeneous content frequently encountered in visual documents. The pre-trained model is fine-tuned using a large-scale instruction dataset, covering four core document intelligence tasks. We demonstrate that our solution outperforms SotA LLMs on 14 out of 16 datasets across all tasks, and generalizes well to 4 out of 5 previously unseen datasets.
PDF18825December 15, 2024