FormNetV2: Multimodale Grafische Contrastieve Leren voor Informatie-extractie uit Formulierdocumenten
FormNetV2: Multimodal Graph Contrastive Learning for Form Document Information Extraction
May 4, 2023
Auteurs: Chen-Yu Lee, Chun-Liang Li, Hao Zhang, Timothy Dozat, Vincent Perot, Guolong Su, Xiang Zhang, Kihyuk Sohn, Nikolai Glushnev, Renshen Wang, Joshua Ainslie, Shangbang Long, Siyang Qin, Yasuhisa Fujii, Nan Hua, Tomas Pfister
cs.AI
Samenvatting
De recente opkomst van zelfgesuperviseerde voorafgaande trainingsmethoden heeft geleid tot een toename in het gebruik van multimodaal leren bij het begrijpen van formulierdocumenten. Bestaande benaderingen die maskertaalmodeling uitbreiden naar andere modaliteiten vereisen echter zorgvuldige afstemming van meerdere taken, complexe ontwerpen voor reconstructiedoelen, of aanvullende voorafgaande trainingsdata. In FormNetV2 introduceren we een gecentraliseerde multimodale grafiekcontrastieve leerstrategie om zelfgesuperviseerde voorafgaande training voor alle modaliteiten te verenigen in één verliesfunctie. Het grafiekcontrastieve doel maximaliseert de overeenstemming van multimodale representaties, wat een natuurlijke interactie biedt voor alle modaliteiten zonder speciale aanpassingen. Daarnaast extraheren we beeldkenmerken binnen het begrenzingsvak dat een paar tokens verbindt die door een grafiekrand zijn verbonden, waardoor meer gerichte visuele aanwijzingen worden vastgelegd zonder een geavanceerde en apart vooraf getrainde beeldembedder te laden. FormNetV2 vestigt nieuwe state-of-the-art prestaties op de benchmarks FUNSD, CORD, SROIE en Payment met een compacter modelformaat.
English
The recent advent of self-supervised pre-training techniques has led to a
surge in the use of multimodal learning in form document understanding.
However, existing approaches that extend the mask language modeling to other
modalities require careful multi-task tuning, complex reconstruction target
designs, or additional pre-training data. In FormNetV2, we introduce a
centralized multimodal graph contrastive learning strategy to unify
self-supervised pre-training for all modalities in one loss. The graph
contrastive objective maximizes the agreement of multimodal representations,
providing a natural interplay for all modalities without special customization.
In addition, we extract image features within the bounding box that joins a
pair of tokens connected by a graph edge, capturing more targeted visual cues
without loading a sophisticated and separately pre-trained image embedder.
FormNetV2 establishes new state-of-the-art performance on FUNSD, CORD, SROIE
and Payment benchmarks with a more compact model size.