FormNetV2: Multimodales Graph Contrastive Learning zur Informationsextraktion aus Formulardokumenten
FormNetV2: Multimodal Graph Contrastive Learning for Form Document Information Extraction
May 4, 2023
Autoren: Chen-Yu Lee, Chun-Liang Li, Hao Zhang, Timothy Dozat, Vincent Perot, Guolong Su, Xiang Zhang, Kihyuk Sohn, Nikolai Glushnev, Renshen Wang, Joshua Ainslie, Shangbang Long, Siyang Qin, Yasuhisa Fujii, Nan Hua, Tomas Pfister
cs.AI
Zusammenfassung
Das jüngste Aufkommen von selbstüberwachten Vortrainingsmethoden hat zu einem starken Anstieg der Nutzung von multimodalem Lernen im Bereich der Formulardokumentverarbeitung geführt. Bestehende Ansätze, die die Maskierungssprachmodellierung auf andere Modalitäten ausweiten, erfordern jedoch eine sorgfältige Multi-Task-Abstimmung, komplexe Rekonstruktionszielentwürfe oder zusätzliche Vortrainingsdaten. In FormNetV2 führen wir eine zentralisierte multimodale Graph-Kontrastlernstrategie ein, um das selbstüberwachte Vortraining für alle Modalitäten in einem einzigen Verlust zu vereinheitlichen. Das Graph-Kontrastziel maximiert die Übereinstimmung multimodaler Repräsentationen und bietet ein natürliches Zusammenspiel aller Modalitäten ohne spezielle Anpassungen. Darüber hinaus extrahieren wir Bildmerkmale innerhalb der Begrenzungsbox, die ein Tokenpaar verbindet, das durch eine Graphkante verbunden ist, und erfassen so gezieltere visuelle Hinweise, ohne einen komplexen und separat vortrainierten Bild-Einbettungsmechanismus zu laden. FormNetV2 erreicht neue State-of-the-Art-Leistungen auf den Benchmarks FUNSD, CORD, SROIE und Payment bei einer kompakteren Modellgröße.
English
The recent advent of self-supervised pre-training techniques has led to a
surge in the use of multimodal learning in form document understanding.
However, existing approaches that extend the mask language modeling to other
modalities require careful multi-task tuning, complex reconstruction target
designs, or additional pre-training data. In FormNetV2, we introduce a
centralized multimodal graph contrastive learning strategy to unify
self-supervised pre-training for all modalities in one loss. The graph
contrastive objective maximizes the agreement of multimodal representations,
providing a natural interplay for all modalities without special customization.
In addition, we extract image features within the bounding box that joins a
pair of tokens connected by a graph edge, capturing more targeted visual cues
without loading a sophisticated and separately pre-trained image embedder.
FormNetV2 establishes new state-of-the-art performance on FUNSD, CORD, SROIE
and Payment benchmarks with a more compact model size.