Um Modelo de Base de Texto-Imagem em Nível de Token para Compreensão de Documentos
A Token-level Text Image Foundation Model for Document Understanding
March 4, 2025
Autores: Tongkun Guan, Zining Wang, Pei Fu, Zhengtao Guo, Wei Shen, Kai Zhou, Tiezhu Yue, Chen Duan, Hao Sun, Qianyi Jiang, Junfeng Luo, Xiaokang Yang
cs.AI
Resumo
Nos últimos anos, os modelos visuais de base geral (VFMs, na sigla em inglês) têm sido cada vez mais adotados, especialmente como codificadores de imagem para modelos de linguagem multimodal de grande escala (MLLMs, na sigla em inglês). No entanto, sem supervisão semanticamente refinada, esses modelos ainda enfrentam erros fundamentais de previsão no contexto de tarefas relacionadas a texto e imagem, ou seja, percepção, compreensão e raciocínio com imagens que contêm textos pequenos e densos. Para preencher essa lacuna, desenvolvemos o TokenOCR, o primeiro modelo visual de base em nível de token especificamente adaptado para tarefas relacionadas a texto e imagem, projetado para suportar uma variedade de aplicações tradicionais a jusante. Para facilitar o pré-treinamento do TokenOCR, também criamos um pipeline de produção de dados de alta qualidade que constrói o primeiro conjunto de dados de texto em imagem em nível de token, o TokenIT, composto por 20 milhões de imagens e 1,8 bilhão de pares token-máscara. Além disso, aproveitando essa base com capacidade excepcional de tratar imagens como texto, substituímos de forma contínua os VFMs anteriores pelo TokenOCR para construir um MLLM em nível de documento, o TokenVL, para tarefas de compreensão de documentos baseadas em VQA (Question Answering Visual). Por fim, experimentos extensivos demonstram a eficácia do TokenOCR e do TokenVL. Códigos, conjuntos de dados e pesos estarão disponíveis em https://token-family.github.io/TokenOCR_project.
English
In recent years, general visual foundation models (VFMs) have witnessed
increasing adoption, particularly as image encoders for popular multi-modal
large language models (MLLMs). However, without semantically fine-grained
supervision, these models still encounter fundamental prediction errors in the
context of downstream text-image-related tasks, i.e., perception, understanding
and reasoning with images containing small and dense texts. To bridge this gap,
we develop TokenOCR, the first token-level visual foundation model specifically
tailored for text-image-related tasks, designed to support a variety of
traditional downstream applications. To facilitate the pretraining of TokenOCR,
we also devise a high-quality data production pipeline that constructs the
first token-level image text dataset, TokenIT, comprising 20 million images and
1.8 billion token-mask pairs. Furthermore, leveraging this foundation with
exceptional image-as-text capability, we seamlessly replace previous VFMs with
TokenOCR to construct a document-level MLLM, TokenVL, for VQA-based document
understanding tasks. Finally, extensive experiments demonstrate the
effectiveness of TokenOCR and TokenVL. Code, datasets, and weights will be
available at https://token-family.github.io/TokenOCR_project.Summary
AI-Generated Summary