ChatPaper.aiChatPaper

FormNetV2: Мультимодальное контрастное обучение на графах для извлечения информации из структурированных документов

FormNetV2: Multimodal Graph Contrastive Learning for Form Document Information Extraction

May 4, 2023
Авторы: Chen-Yu Lee, Chun-Liang Li, Hao Zhang, Timothy Dozat, Vincent Perot, Guolong Su, Xiang Zhang, Kihyuk Sohn, Nikolai Glushnev, Renshen Wang, Joshua Ainslie, Shangbang Long, Siyang Qin, Yasuhisa Fujii, Nan Hua, Tomas Pfister
cs.AI

Аннотация

Недавнее появление методов самоконтролируемого предварительного обучения привело к значительному росту использования мультимодального обучения в задачах понимания форм документов. Однако существующие подходы, которые расширяют маскированное языковое моделирование на другие модальности, требуют тщательной настройки многозадачности, сложного проектирования целей реконструкции или дополнительных данных для предварительного обучения. В FormNetV2 мы представляем стратегию централизованного контрастного обучения на мультимодальных графах, которая объединяет самоконтролируемое предварительное обучение для всех модальностей в рамках одной функции потерь. Цель контрастного обучения на графах максимизирует согласованность мультимодальных представлений, обеспечивая естественное взаимодействие всех модальностей без необходимости специальной настройки. Кроме того, мы извлекаем признаки изображения в пределах ограничивающего прямоугольника, который соединяет пару токенов, связанных ребром графа, что позволяет захватывать более целенаправленные визуальные подсказки без использования сложного и отдельно предварительно обученного эмбеддера изображений. FormNetV2 устанавливает новые рекорды производительности на бенчмарках FUNSD, CORD, SROIE и Payment при более компактном размере модели.
English
The recent advent of self-supervised pre-training techniques has led to a surge in the use of multimodal learning in form document understanding. However, existing approaches that extend the mask language modeling to other modalities require careful multi-task tuning, complex reconstruction target designs, or additional pre-training data. In FormNetV2, we introduce a centralized multimodal graph contrastive learning strategy to unify self-supervised pre-training for all modalities in one loss. The graph contrastive objective maximizes the agreement of multimodal representations, providing a natural interplay for all modalities without special customization. In addition, we extract image features within the bounding box that joins a pair of tokens connected by a graph edge, capturing more targeted visual cues without loading a sophisticated and separately pre-trained image embedder. FormNetV2 establishes new state-of-the-art performance on FUNSD, CORD, SROIE and Payment benchmarks with a more compact model size.
PDF62December 15, 2024