DocGraphLM: Modelo de Linguagem de Grafos Documentais para Extração de Informação
DocGraphLM: Documental Graph Language Model for Information Extraction
January 5, 2024
Autores: Dongsheng Wang, Zhiqiang Ma, Armineh Nourbakhsh, Kang Gu, Sameena Shah
cs.AI
Resumo
Avanços na Compreensão de Documentos Visualmente Complexos (VrDU) têm possibilitado a extração de informações e a resposta a perguntas sobre documentos com layouts intrincados. Dois tipos de arquiteturas emergiram — modelos baseados em transformers inspirados por LLMs (Large Language Models) e Redes Neurais de Grafos (Graph Neural Networks). Neste artigo, apresentamos o DocGraphLM, uma estrutura inovadora que combina modelos de linguagem pré-treinados com semântica de grafos. Para isso, propomos 1) uma arquitetura de codificador conjunta para representar documentos e 2) uma nova abordagem de previsão de links para reconstruir grafos de documentos. O DocGraphLM prevê tanto direções quanto distâncias entre nós usando uma função de perda conjunta convergente que prioriza a restauração da vizinhança e reduz a importância da detecção de nós distantes. Nossos experimentos em três conjuntos de dados state-of-the-art (SotA) mostram uma melhoria consistente em tarefas de extração de informações (IE) e resposta a perguntas (QA) com a adoção de características de grafos. Além disso, observamos que a incorporação dessas características acelera a convergência no processo de aprendizado durante o treinamento, apesar de serem construídas exclusivamente por meio de previsão de links.
English
Advances in Visually Rich Document Understanding (VrDU) have enabled
information extraction and question answering over documents with complex
layouts. Two tropes of architectures have emerged -- transformer-based models
inspired by LLMs, and Graph Neural Networks. In this paper, we introduce
DocGraphLM, a novel framework that combines pre-trained language models with
graph semantics. To achieve this, we propose 1) a joint encoder architecture to
represent documents, and 2) a novel link prediction approach to reconstruct
document graphs. DocGraphLM predicts both directions and distances between
nodes using a convergent joint loss function that prioritizes neighborhood
restoration and downweighs distant node detection. Our experiments on three
SotA datasets show consistent improvement on IE and QA tasks with the adoption
of graph features. Moreover, we report that adopting the graph features
accelerates convergence in the learning process during training, despite being
solely constructed through link prediction.