FormNetV2: Apprendimento Contrastivo Multimodale su Grafi per l'Estrazione di Informazioni da Documenti Modulistici

Abstract

La recente comparsa di tecniche di pre-addestramento auto-supervisionato ha portato a un aumento nell'uso dell'apprendimento multimodale per la comprensione dei documenti strutturati. Tuttavia, gli approcci esistenti che estendono il modello di mascheramento linguistico ad altre modalità richiedono un'attenta regolazione multi-task, progetti complessi per gli obiettivi di ricostruzione o dati aggiuntivi per il pre-addestramento. In FormNetV2, introduciamo una strategia centralizzata di apprendimento contrastivo su grafo multimodale per unificare il pre-addestramento auto-supervisionato per tutte le modalità in una singola funzione di perdita. L'obiettivo contrastivo su grafo massimizza l'accordo tra le rappresentazioni multimodali, fornendo un'interazione naturale per tutte le modalità senza necessità di personalizzazioni specifiche. Inoltre, estraiamo le caratteristiche dell'immagine all'interno del riquadro di delimitazione che unisce una coppia di token connessi da un arco del grafo, catturando indizi visivi più mirati senza caricare un estrattore di caratteristiche immagine sofisticato e pre-addestrato separatamente. FormNetV2 stabilisce nuove prestazioni all'avanguardia sui benchmark FUNSD, CORD, SROIE e Payment con una dimensione del modello più compatta.

English

The recent advent of self-supervised pre-training techniques has led to a surge in the use of multimodal learning in form document understanding. However, existing approaches that extend the mask language modeling to other modalities require careful multi-task tuning, complex reconstruction target designs, or additional pre-training data. In FormNetV2, we introduce a centralized multimodal graph contrastive learning strategy to unify self-supervised pre-training for all modalities in one loss. The graph contrastive objective maximizes the agreement of multimodal representations, providing a natural interplay for all modalities without special customization. In addition, we extract image features within the bounding box that joins a pair of tokens connected by a graph edge, capturing more targeted visual cues without loading a sophisticated and separately pre-trained image embedder. FormNetV2 establishes new state-of-the-art performance on FUNSD, CORD, SROIE and Payment benchmarks with a more compact model size.

FormNetV2: Apprendimento Contrastivo Multimodale su Grafi per l'Estrazione di Informazioni da Documenti Modulistici

FormNetV2: Multimodal Graph Contrastive Learning for Form Document Information Extraction

Abstract

Support