DocGraphLM: Modelo de Lenguaje Basado en Grafos Documentales para la Extracción de Información

Resumen

Los avances en Comprensión de Documentos Visualmente Ricos (VrDU, por sus siglas en inglés) han permitido la extracción de información y la respuesta a preguntas sobre documentos con diseños complejos. Han surgido dos tipos principales de arquitecturas: modelos basados en transformadores inspirados en LLM (Modelos de Lenguaje de Gran Escala) y Redes Neuronales de Grafos. En este artículo, presentamos DocGraphLM, un marco novedoso que combina modelos de lenguaje preentrenados con semántica de grafos. Para lograrlo, proponemos 1) una arquitectura de codificador conjunto para representar documentos, y 2) un enfoque innovador de predicción de enlaces para reconstruir grafos de documentos. DocGraphLM predice tanto las direcciones como las distancias entre nodos utilizando una función de pérdida conjunta convergente que prioriza la restauración del vecindario y reduce el peso en la detección de nodos distantes. Nuestros experimentos en tres conjuntos de datos de última generación (SotA) muestran una mejora consistente en tareas de extracción de información (IE) y respuesta a preguntas (QA) con la adopción de características de grafos. Además, reportamos que la adopción de estas características acelera la convergencia en el proceso de aprendizaje durante el entrenamiento, a pesar de construirse únicamente mediante predicción de enlaces.

English

Advances in Visually Rich Document Understanding (VrDU) have enabled information extraction and question answering over documents with complex layouts. Two tropes of architectures have emerged -- transformer-based models inspired by LLMs, and Graph Neural Networks. In this paper, we introduce DocGraphLM, a novel framework that combines pre-trained language models with graph semantics. To achieve this, we propose 1) a joint encoder architecture to represent documents, and 2) a novel link prediction approach to reconstruct document graphs. DocGraphLM predicts both directions and distances between nodes using a convergent joint loss function that prioritizes neighborhood restoration and downweighs distant node detection. Our experiments on three SotA datasets show consistent improvement on IE and QA tasks with the adoption of graph features. Moreover, we report that adopting the graph features accelerates convergence in the learning process during training, despite being solely constructed through link prediction.

DocGraphLM: Modelo de Lenguaje Basado en Grafos Documentales para la Extracción de Información

DocGraphLM: Documental Graph Language Model for Information Extraction

Resumen

Support