FormNetV2: Multimodale Grafische Contrastieve Leren voor Informatie-extractie uit Formulierdocumenten

Samenvatting

De recente opkomst van zelfgesuperviseerde voorafgaande trainingsmethoden heeft geleid tot een toename in het gebruik van multimodaal leren bij het begrijpen van formulierdocumenten. Bestaande benaderingen die maskertaalmodeling uitbreiden naar andere modaliteiten vereisen echter zorgvuldige afstemming van meerdere taken, complexe ontwerpen voor reconstructiedoelen, of aanvullende voorafgaande trainingsdata. In FormNetV2 introduceren we een gecentraliseerde multimodale grafiekcontrastieve leerstrategie om zelfgesuperviseerde voorafgaande training voor alle modaliteiten te verenigen in één verliesfunctie. Het grafiekcontrastieve doel maximaliseert de overeenstemming van multimodale representaties, wat een natuurlijke interactie biedt voor alle modaliteiten zonder speciale aanpassingen. Daarnaast extraheren we beeldkenmerken binnen het begrenzingsvak dat een paar tokens verbindt die door een grafiekrand zijn verbonden, waardoor meer gerichte visuele aanwijzingen worden vastgelegd zonder een geavanceerde en apart vooraf getrainde beeldembedder te laden. FormNetV2 vestigt nieuwe state-of-the-art prestaties op de benchmarks FUNSD, CORD, SROIE en Payment met een compacter modelformaat.

English

The recent advent of self-supervised pre-training techniques has led to a surge in the use of multimodal learning in form document understanding. However, existing approaches that extend the mask language modeling to other modalities require careful multi-task tuning, complex reconstruction target designs, or additional pre-training data. In FormNetV2, we introduce a centralized multimodal graph contrastive learning strategy to unify self-supervised pre-training for all modalities in one loss. The graph contrastive objective maximizes the agreement of multimodal representations, providing a natural interplay for all modalities without special customization. In addition, we extract image features within the bounding box that joins a pair of tokens connected by a graph edge, capturing more targeted visual cues without loading a sophisticated and separately pre-trained image embedder. FormNetV2 establishes new state-of-the-art performance on FUNSD, CORD, SROIE and Payment benchmarks with a more compact model size.

FormNetV2: Multimodale Grafische Contrastieve Leren voor Informatie-extractie uit Formulierdocumenten

FormNetV2: Multimodal Graph Contrastive Learning for Form Document Information Extraction

Samenvatting

Support