DocGraphLM: Modelo de Lenguaje Basado en Grafos Documentales para la Extracción de Información
DocGraphLM: Documental Graph Language Model for Information Extraction
January 5, 2024
Autores: Dongsheng Wang, Zhiqiang Ma, Armineh Nourbakhsh, Kang Gu, Sameena Shah
cs.AI
Resumen
Los avances en Comprensión de Documentos Visualmente Ricos (VrDU, por sus siglas en inglés) han permitido la extracción de información y la respuesta a preguntas sobre documentos con diseños complejos. Han surgido dos tipos principales de arquitecturas: modelos basados en transformadores inspirados en LLM (Modelos de Lenguaje de Gran Escala) y Redes Neuronales de Grafos. En este artículo, presentamos DocGraphLM, un marco novedoso que combina modelos de lenguaje preentrenados con semántica de grafos. Para lograrlo, proponemos 1) una arquitectura de codificador conjunto para representar documentos, y 2) un enfoque innovador de predicción de enlaces para reconstruir grafos de documentos. DocGraphLM predice tanto las direcciones como las distancias entre nodos utilizando una función de pérdida conjunta convergente que prioriza la restauración del vecindario y reduce el peso en la detección de nodos distantes. Nuestros experimentos en tres conjuntos de datos de última generación (SotA) muestran una mejora consistente en tareas de extracción de información (IE) y respuesta a preguntas (QA) con la adopción de características de grafos. Además, reportamos que la adopción de estas características acelera la convergencia en el proceso de aprendizaje durante el entrenamiento, a pesar de construirse únicamente mediante predicción de enlaces.
English
Advances in Visually Rich Document Understanding (VrDU) have enabled
information extraction and question answering over documents with complex
layouts. Two tropes of architectures have emerged -- transformer-based models
inspired by LLMs, and Graph Neural Networks. In this paper, we introduce
DocGraphLM, a novel framework that combines pre-trained language models with
graph semantics. To achieve this, we propose 1) a joint encoder architecture to
represent documents, and 2) a novel link prediction approach to reconstruct
document graphs. DocGraphLM predicts both directions and distances between
nodes using a convergent joint loss function that prioritizes neighborhood
restoration and downweighs distant node detection. Our experiments on three
SotA datasets show consistent improvement on IE and QA tasks with the adoption
of graph features. Moreover, we report that adopting the graph features
accelerates convergence in the learning process during training, despite being
solely constructed through link prediction.