ChatPaper.aiChatPaper

FormNetV2: Aprendizaje Contrastivo Multimodal en Grafos para la Extracción de Información en Documentos de Formularios

FormNetV2: Multimodal Graph Contrastive Learning for Form Document Information Extraction

May 4, 2023
Autores: Chen-Yu Lee, Chun-Liang Li, Hao Zhang, Timothy Dozat, Vincent Perot, Guolong Su, Xiang Zhang, Kihyuk Sohn, Nikolai Glushnev, Renshen Wang, Joshua Ainslie, Shangbang Long, Siyang Qin, Yasuhisa Fujii, Nan Hua, Tomas Pfister
cs.AI

Resumen

El reciente surgimiento de técnicas de preentrenamiento autosupervisado ha impulsado el uso del aprendizaje multimodal en la comprensión de documentos estructurados. Sin embargo, los enfoques existentes que extienden el modelado de lenguaje enmascarado a otras modalidades requieren un ajuste cuidadoso de múltiples tareas, diseños complejos de objetivos de reconstrucción o datos adicionales de preentrenamiento. En FormNetV2, introducimos una estrategia centralizada de aprendizaje contrastivo multimodal basado en grafos para unificar el preentrenamiento autosupervisado de todas las modalidades en una única función de pérdida. El objetivo contrastivo del grafo maximiza la concordancia de las representaciones multimodales, proporcionando una interacción natural para todas las modalidades sin necesidad de personalizaciones especiales. Además, extraemos características de imagen dentro del cuadro delimitador que une un par de tokens conectados por una arista del grafo, capturando señales visuales más específicas sin cargar un codificador de imágenes complejo y preentrenado por separado. FormNetV2 establece un nuevo estado del arte en los benchmarks de FUNSD, CORD, SROIE y Payment con un tamaño de modelo más compacto.
English
The recent advent of self-supervised pre-training techniques has led to a surge in the use of multimodal learning in form document understanding. However, existing approaches that extend the mask language modeling to other modalities require careful multi-task tuning, complex reconstruction target designs, or additional pre-training data. In FormNetV2, we introduce a centralized multimodal graph contrastive learning strategy to unify self-supervised pre-training for all modalities in one loss. The graph contrastive objective maximizes the agreement of multimodal representations, providing a natural interplay for all modalities without special customization. In addition, we extract image features within the bounding box that joins a pair of tokens connected by a graph edge, capturing more targeted visual cues without loading a sophisticated and separately pre-trained image embedder. FormNetV2 establishes new state-of-the-art performance on FUNSD, CORD, SROIE and Payment benchmarks with a more compact model size.
PDF62December 15, 2024