DocGraphLM: Dokumentales Graph-Sprachmodell zur Informationsextraktion
DocGraphLM: Documental Graph Language Model for Information Extraction
January 5, 2024
Autoren: Dongsheng Wang, Zhiqiang Ma, Armineh Nourbakhsh, Kang Gu, Sameena Shah
cs.AI
Zusammenfassung
Fortschritte im Bereich des Verständnisses visuell komplexer Dokumente (Visually Rich Document Understanding, VrDU) haben die Extraktion von Informationen und das Beantworten von Fragen über Dokumente mit komplexen Layouts ermöglicht. Dabei haben sich zwei Architekturansätze herausgebildet – transformerbasierte Modelle, die von großen Sprachmodellen (LLMs) inspiriert sind, und Graph Neural Networks. In diesem Artikel stellen wir DocGraphLM vor, ein neuartiges Framework, das vortrainierte Sprachmodelle mit Graphensemantik kombiniert. Um dies zu erreichen, schlagen wir 1) eine gemeinsame Encoder-Architektur zur Repräsentation von Dokumenten und 2) einen neuartigen Ansatz zur Link-Vorhersage zur Rekonstruktion von Dokumentgraphen vor. DocGraphLM sagt sowohl Richtungen als auch Abstände zwischen Knoten mithilfe einer konvergenten gemeinsamen Verlustfunktion voraus, die die Wiederherstellung der Nachbarschaft priorisiert und die Erkennung entfernter Knoten gewichtet. Unsere Experimente auf drei State-of-the-Art-Datensätzen zeigen durchgängige Verbesserungen bei Aufgaben zur Informationsextraktion (IE) und Fragebeantwortung (QA) durch die Einbindung von Graph-Features. Darüber hinaus berichten wir, dass die Verwendung der Graph-Features die Konvergenz im Lernprozess während des Trainings beschleunigt, obwohl sie ausschließlich durch Link-Vorhersage konstruiert werden.
English
Advances in Visually Rich Document Understanding (VrDU) have enabled
information extraction and question answering over documents with complex
layouts. Two tropes of architectures have emerged -- transformer-based models
inspired by LLMs, and Graph Neural Networks. In this paper, we introduce
DocGraphLM, a novel framework that combines pre-trained language models with
graph semantics. To achieve this, we propose 1) a joint encoder architecture to
represent documents, and 2) a novel link prediction approach to reconstruct
document graphs. DocGraphLM predicts both directions and distances between
nodes using a convergent joint loss function that prioritizes neighborhood
restoration and downweighs distant node detection. Our experiments on three
SotA datasets show consistent improvement on IE and QA tasks with the adoption
of graph features. Moreover, we report that adopting the graph features
accelerates convergence in the learning process during training, despite being
solely constructed through link prediction.