DocGraphLM: Documentair Graf Taalmodel voor Informatie-extractie

Samenvatting

Vooruitgang in Visueel Rijk Documentbegrip (VrDU) heeft informatie-extractie en vraag-antwoordmogelijkheden over documenten met complexe lay-outs mogelijk gemaakt. Twee soorten architecturen zijn naar voren gekomen: transformer-gebaseerde modellen geïnspireerd door LLM's, en Grafische Neurale Netwerken. In dit artikel introduceren we DocGraphLM, een nieuw framework dat vooraf getrainde taalmodelen combineert met grafische semantiek. Om dit te bereiken, stellen we 1) een gezamenlijke encoder-architectuur voor om documenten te representeren, en 2) een nieuwe link-voorspellingsbenadering om documentgrafieken te reconstrueren. DocGraphLM voorspelt zowel richtingen als afstanden tussen knooppunten met behulp van een convergente gezamenlijke verliesfunctie die prioriteit geeft aan het herstel van de nabijheid en het detecteren van verre knooppunten verlaagt. Onze experimenten op drie SotA-datasets laten consistente verbeteringen zien in IE- en QA-taken met de adoptie van grafische kenmerken. Bovendien melden we dat het adopteren van de grafische kenmerken de convergentie in het leerproces tijdens de training versnelt, ondanks dat deze uitsluitend is geconstrueerd via link-voorspelling.

English

Advances in Visually Rich Document Understanding (VrDU) have enabled information extraction and question answering over documents with complex layouts. Two tropes of architectures have emerged -- transformer-based models inspired by LLMs, and Graph Neural Networks. In this paper, we introduce DocGraphLM, a novel framework that combines pre-trained language models with graph semantics. To achieve this, we propose 1) a joint encoder architecture to represent documents, and 2) a novel link prediction approach to reconstruct document graphs. DocGraphLM predicts both directions and distances between nodes using a convergent joint loss function that prioritizes neighborhood restoration and downweighs distant node detection. Our experiments on three SotA datasets show consistent improvement on IE and QA tasks with the adoption of graph features. Moreover, we report that adopting the graph features accelerates convergence in the learning process during training, despite being solely constructed through link prediction.

DocGraphLM: Documentair Graf Taalmodel voor Informatie-extractie

DocGraphLM: Documental Graph Language Model for Information Extraction

Samenvatting

Support