FormNetV2: 양식 문서 정보 추출을 위한 멀티모달 그래프 대조 학습
FormNetV2: Multimodal Graph Contrastive Learning for Form Document Information Extraction
May 4, 2023
저자: Chen-Yu Lee, Chun-Liang Li, Hao Zhang, Timothy Dozat, Vincent Perot, Guolong Su, Xiang Zhang, Kihyuk Sohn, Nikolai Glushnev, Renshen Wang, Joshua Ainslie, Shangbang Long, Siyang Qin, Yasuhisa Fujii, Nan Hua, Tomas Pfister
cs.AI
초록
최근 등장한 자기 지도 사전 학습 기술은 양식 문서 이해 분야에서 다중 모달 학습의 사용이 급증하는 계기가 되었습니다. 그러나 마스크 언어 모델링을 다른 모달리티로 확장하는 기존 접근 방식들은 신중한 다중 작업 튜닝, 복잡한 재구성 목표 설계 또는 추가적인 사전 학습 데이터를 요구합니다. FormNetV2에서는 모든 모달리티에 대한 자기 지도 사전 학습을 하나의 손실 함수로 통합하기 위해 중앙 집중식 다중 모달 그래프 대조 학습 전략을 도입했습니다. 그래프 대조 목표는 다중 모달 표현 간의 일치를 극대화하여 특별한 맞춤화 없이도 모든 모달리티 간의 자연스러운 상호작용을 제공합니다. 또한, 그래프 엣지로 연결된 토큰 쌍을 결합하는 경계 상자 내부의 이미지 특징을 추출함으로써, 복잡하고 별도로 사전 학습된 이미지 임베더를 로드하지 않고도 더 목표 지향적인 시각적 단서를 포착합니다. FormNetV2는 더 컴팩트한 모델 크기로 FUNSD, CORD, SROIE 및 Payment 벤치마크에서 새로운 최첨단 성능을 달성했습니다.
English
The recent advent of self-supervised pre-training techniques has led to a
surge in the use of multimodal learning in form document understanding.
However, existing approaches that extend the mask language modeling to other
modalities require careful multi-task tuning, complex reconstruction target
designs, or additional pre-training data. In FormNetV2, we introduce a
centralized multimodal graph contrastive learning strategy to unify
self-supervised pre-training for all modalities in one loss. The graph
contrastive objective maximizes the agreement of multimodal representations,
providing a natural interplay for all modalities without special customization.
In addition, we extract image features within the bounding box that joins a
pair of tokens connected by a graph edge, capturing more targeted visual cues
without loading a sophisticated and separately pre-trained image embedder.
FormNetV2 establishes new state-of-the-art performance on FUNSD, CORD, SROIE
and Payment benchmarks with a more compact model size.