ChatPaper.aiChatPaper

DocGraphLM: Modelo de Linguagem de Grafos Documentais para Extração de Informação

DocGraphLM: Documental Graph Language Model for Information Extraction

January 5, 2024
Autores: Dongsheng Wang, Zhiqiang Ma, Armineh Nourbakhsh, Kang Gu, Sameena Shah
cs.AI

Resumo

Avanços na Compreensão de Documentos Visualmente Complexos (VrDU) têm possibilitado a extração de informações e a resposta a perguntas sobre documentos com layouts intrincados. Dois tipos de arquiteturas emergiram — modelos baseados em transformers inspirados por LLMs (Large Language Models) e Redes Neurais de Grafos (Graph Neural Networks). Neste artigo, apresentamos o DocGraphLM, uma estrutura inovadora que combina modelos de linguagem pré-treinados com semântica de grafos. Para isso, propomos 1) uma arquitetura de codificador conjunta para representar documentos e 2) uma nova abordagem de previsão de links para reconstruir grafos de documentos. O DocGraphLM prevê tanto direções quanto distâncias entre nós usando uma função de perda conjunta convergente que prioriza a restauração da vizinhança e reduz a importância da detecção de nós distantes. Nossos experimentos em três conjuntos de dados state-of-the-art (SotA) mostram uma melhoria consistente em tarefas de extração de informações (IE) e resposta a perguntas (QA) com a adoção de características de grafos. Além disso, observamos que a incorporação dessas características acelera a convergência no processo de aprendizado durante o treinamento, apesar de serem construídas exclusivamente por meio de previsão de links.
English
Advances in Visually Rich Document Understanding (VrDU) have enabled information extraction and question answering over documents with complex layouts. Two tropes of architectures have emerged -- transformer-based models inspired by LLMs, and Graph Neural Networks. In this paper, we introduce DocGraphLM, a novel framework that combines pre-trained language models with graph semantics. To achieve this, we propose 1) a joint encoder architecture to represent documents, and 2) a novel link prediction approach to reconstruct document graphs. DocGraphLM predicts both directions and distances between nodes using a convergent joint loss function that prioritizes neighborhood restoration and downweighs distant node detection. Our experiments on three SotA datasets show consistent improvement on IE and QA tasks with the adoption of graph features. Moreover, we report that adopting the graph features accelerates convergence in the learning process during training, despite being solely constructed through link prediction.
PDF364February 7, 2026