DocGraphLM: Dokumentales Graph-Sprachmodell zur Informationsextraktion

papers.abstract

Fortschritte im Bereich des Verständnisses visuell komplexer Dokumente (Visually Rich Document Understanding, VrDU) haben die Extraktion von Informationen und das Beantworten von Fragen über Dokumente mit komplexen Layouts ermöglicht. Dabei haben sich zwei Architekturansätze herausgebildet – transformerbasierte Modelle, die von großen Sprachmodellen (LLMs) inspiriert sind, und Graph Neural Networks. In diesem Artikel stellen wir DocGraphLM vor, ein neuartiges Framework, das vortrainierte Sprachmodelle mit Graphensemantik kombiniert. Um dies zu erreichen, schlagen wir 1) eine gemeinsame Encoder-Architektur zur Repräsentation von Dokumenten und 2) einen neuartigen Ansatz zur Link-Vorhersage zur Rekonstruktion von Dokumentgraphen vor. DocGraphLM sagt sowohl Richtungen als auch Abstände zwischen Knoten mithilfe einer konvergenten gemeinsamen Verlustfunktion voraus, die die Wiederherstellung der Nachbarschaft priorisiert und die Erkennung entfernter Knoten gewichtet. Unsere Experimente auf drei State-of-the-Art-Datensätzen zeigen durchgängige Verbesserungen bei Aufgaben zur Informationsextraktion (IE) und Fragebeantwortung (QA) durch die Einbindung von Graph-Features. Darüber hinaus berichten wir, dass die Verwendung der Graph-Features die Konvergenz im Lernprozess während des Trainings beschleunigt, obwohl sie ausschließlich durch Link-Vorhersage konstruiert werden.

English

Advances in Visually Rich Document Understanding (VrDU) have enabled information extraction and question answering over documents with complex layouts. Two tropes of architectures have emerged -- transformer-based models inspired by LLMs, and Graph Neural Networks. In this paper, we introduce DocGraphLM, a novel framework that combines pre-trained language models with graph semantics. To achieve this, we propose 1) a joint encoder architecture to represent documents, and 2) a novel link prediction approach to reconstruct document graphs. DocGraphLM predicts both directions and distances between nodes using a convergent joint loss function that prioritizes neighborhood restoration and downweighs distant node detection. Our experiments on three SotA datasets show consistent improvement on IE and QA tasks with the adoption of graph features. Moreover, we report that adopting the graph features accelerates convergence in the learning process during training, despite being solely constructed through link prediction.

DocGraphLM: Dokumentales Graph-Sprachmodell zur Informationsextraktion

DocGraphLM: Documental Graph Language Model for Information Extraction

papers.abstract

Support