ChatPaper.aiChatPaper

FormNetV2 : Apprentissage contrastif multimodal sur graphe pour l'extraction d'informations dans les documents structurés

FormNetV2: Multimodal Graph Contrastive Learning for Form Document Information Extraction

May 4, 2023
Auteurs: Chen-Yu Lee, Chun-Liang Li, Hao Zhang, Timothy Dozat, Vincent Perot, Guolong Su, Xiang Zhang, Kihyuk Sohn, Nikolai Glushnev, Renshen Wang, Joshua Ainslie, Shangbang Long, Siyang Qin, Yasuhisa Fujii, Nan Hua, Tomas Pfister
cs.AI

Résumé

L'émergence récente des techniques de pré-entraînement auto-supervisé a entraîné une augmentation significative de l'utilisation de l'apprentissage multimodal dans la compréhension des documents structurés. Cependant, les approches existantes qui étendent le modèle de masquage de langage à d'autres modalités nécessitent un réglage minutieux des tâches multiples, des conceptions complexes de cibles de reconstruction ou des données de pré-entraînement supplémentaires. Dans FormNetV2, nous introduisons une stratégie centralisée d'apprentissage contrastif par graphe multimodal pour unifier le pré-entraînement auto-supervisé de toutes les modalités en une seule fonction de perte. L'objectif contrastif par graphe maximise l'accord des représentations multimodales, offrant une interaction naturelle pour toutes les modalités sans nécessiter de personnalisation spécifique. De plus, nous extrayons les caractéristiques d'image à l'intérieur de la boîte englobante qui relie une paire de tokens connectés par une arête de graphe, capturant ainsi des indices visuels plus ciblés sans recourir à un encodeur d'images sophistiqué et pré-entraîné séparément. FormNetV2 établit de nouvelles performances de pointe sur les benchmarks FUNSD, CORD, SROIE et Payment avec une taille de modèle plus compacte.
English
The recent advent of self-supervised pre-training techniques has led to a surge in the use of multimodal learning in form document understanding. However, existing approaches that extend the mask language modeling to other modalities require careful multi-task tuning, complex reconstruction target designs, or additional pre-training data. In FormNetV2, we introduce a centralized multimodal graph contrastive learning strategy to unify self-supervised pre-training for all modalities in one loss. The graph contrastive objective maximizes the agreement of multimodal representations, providing a natural interplay for all modalities without special customization. In addition, we extract image features within the bounding box that joins a pair of tokens connected by a graph edge, capturing more targeted visual cues without loading a sophisticated and separately pre-trained image embedder. FormNetV2 establishes new state-of-the-art performance on FUNSD, CORD, SROIE and Payment benchmarks with a more compact model size.
PDF62December 15, 2024