FormNetV2: Aprendizado Contrastivo Multimodal em Grafos para Extração de Informações em Documentos Formulários

Resumo

O recente advento de técnicas de pré-treinamento auto-supervisionado levou a um aumento no uso de aprendizado multimodal para a compreensão de documentos de formulários. No entanto, as abordagens existentes que estendem o modelo de linguagem mascarada para outras modalidades exigem um ajuste cuidadoso de múltiplas tarefas, designs complexos de alvos de reconstrução ou dados adicionais de pré-treinamento. No FormNetV2, introduzimos uma estratégia centralizada de aprendizado contrastivo em grafos multimodais para unificar o pré-treinamento auto-supervisionado de todas as modalidades em uma única função de perda. O objetivo contrastivo do grafo maximiza a concordância das representações multimodais, proporcionando uma interação natural para todas as modalidades sem necessidade de personalização especial. Além disso, extraímos características de imagem dentro da caixa delimitadora que une um par de tokens conectados por uma aresta do grafo, capturando pistas visuais mais direcionadas sem a necessidade de carregar um codificador de imagem sofisticado e pré-treinado separadamente. O FormNetV2 estabelece um novo estado da arte em desempenho nos benchmarks FUNSD, CORD, SROIE e Payment, com um tamanho de modelo mais compacto.

English

The recent advent of self-supervised pre-training techniques has led to a surge in the use of multimodal learning in form document understanding. However, existing approaches that extend the mask language modeling to other modalities require careful multi-task tuning, complex reconstruction target designs, or additional pre-training data. In FormNetV2, we introduce a centralized multimodal graph contrastive learning strategy to unify self-supervised pre-training for all modalities in one loss. The graph contrastive objective maximizes the agreement of multimodal representations, providing a natural interplay for all modalities without special customization. In addition, we extract image features within the bounding box that joins a pair of tokens connected by a graph edge, capturing more targeted visual cues without loading a sophisticated and separately pre-trained image embedder. FormNetV2 establishes new state-of-the-art performance on FUNSD, CORD, SROIE and Payment benchmarks with a more compact model size.

FormNetV2: Aprendizado Contrastivo Multimodal em Grafos para Extração de Informações em Documentos Formulários

FormNetV2: Multimodal Graph Contrastive Learning for Form Document Information Extraction

Resumo

Support