FormNetV2: Apprendimento Contrastivo Multimodale su Grafi per l'Estrazione di Informazioni da Documenti Modulistici
FormNetV2: Multimodal Graph Contrastive Learning for Form Document Information Extraction
May 4, 2023
Autori: Chen-Yu Lee, Chun-Liang Li, Hao Zhang, Timothy Dozat, Vincent Perot, Guolong Su, Xiang Zhang, Kihyuk Sohn, Nikolai Glushnev, Renshen Wang, Joshua Ainslie, Shangbang Long, Siyang Qin, Yasuhisa Fujii, Nan Hua, Tomas Pfister
cs.AI
Abstract
La recente comparsa di tecniche di pre-addestramento auto-supervisionato ha portato a un aumento nell'uso dell'apprendimento multimodale per la comprensione dei documenti strutturati. Tuttavia, gli approcci esistenti che estendono il modello di mascheramento linguistico ad altre modalità richiedono un'attenta regolazione multi-task, progetti complessi per gli obiettivi di ricostruzione o dati aggiuntivi per il pre-addestramento. In FormNetV2, introduciamo una strategia centralizzata di apprendimento contrastivo su grafo multimodale per unificare il pre-addestramento auto-supervisionato per tutte le modalità in una singola funzione di perdita. L'obiettivo contrastivo su grafo massimizza l'accordo tra le rappresentazioni multimodali, fornendo un'interazione naturale per tutte le modalità senza necessità di personalizzazioni specifiche. Inoltre, estraiamo le caratteristiche dell'immagine all'interno del riquadro di delimitazione che unisce una coppia di token connessi da un arco del grafo, catturando indizi visivi più mirati senza caricare un estrattore di caratteristiche immagine sofisticato e pre-addestrato separatamente. FormNetV2 stabilisce nuove prestazioni all'avanguardia sui benchmark FUNSD, CORD, SROIE e Payment con una dimensione del modello più compatta.
English
The recent advent of self-supervised pre-training techniques has led to a
surge in the use of multimodal learning in form document understanding.
However, existing approaches that extend the mask language modeling to other
modalities require careful multi-task tuning, complex reconstruction target
designs, or additional pre-training data. In FormNetV2, we introduce a
centralized multimodal graph contrastive learning strategy to unify
self-supervised pre-training for all modalities in one loss. The graph
contrastive objective maximizes the agreement of multimodal representations,
providing a natural interplay for all modalities without special customization.
In addition, we extract image features within the bounding box that joins a
pair of tokens connected by a graph edge, capturing more targeted visual cues
without loading a sophisticated and separately pre-trained image embedder.
FormNetV2 establishes new state-of-the-art performance on FUNSD, CORD, SROIE
and Payment benchmarks with a more compact model size.