Un Modelo Fundacional de Imagen de Texto a Nivel de Token para la Comprensión de Documentos
A Token-level Text Image Foundation Model for Document Understanding
March 4, 2025
Autores: Tongkun Guan, Zining Wang, Pei Fu, Zhengtao Guo, Wei Shen, Kai Zhou, Tiezhu Yue, Chen Duan, Hao Sun, Qianyi Jiang, Junfeng Luo, Xiaokang Yang
cs.AI
Resumen
En los últimos años, los modelos visuales fundamentales generales (VFMs, por sus siglas en inglés) han experimentado una creciente adopción, particularmente como codificadores de imágenes para modelos de lenguaje multimodal de gran escala (MLLMs). Sin embargo, sin una supervisión semánticamente detallada, estos modelos aún enfrentan errores fundamentales de predicción en tareas relacionadas con texto e imagen, es decir, percepción, comprensión y razonamiento con imágenes que contienen textos pequeños y densos. Para cerrar esta brecha, desarrollamos TokenOCR, el primer modelo visual fundamental a nivel de tokens específicamente diseñado para tareas relacionadas con texto e imagen, creado para respaldar una variedad de aplicaciones tradicionales posteriores. Para facilitar el preentrenamiento de TokenOCR, también diseñamos una canalización de producción de datos de alta calidad que construye el primer conjunto de datos de texto en imágenes a nivel de tokens, TokenIT, que comprende 20 millones de imágenes y 1.800 millones de pares de tokens y máscaras. Además, aprovechando esta base con una capacidad excepcional para tratar imágenes como texto, reemplazamos sin problemas los VFMs anteriores con TokenOCR para construir un MLLM a nivel de documentos, TokenVL, destinado a tareas de comprensión de documentos basadas en preguntas y respuestas visuales (VQA). Finalmente, experimentos exhaustivos demuestran la efectividad de TokenOCR y TokenVL. El código, los conjuntos de datos y los pesos estarán disponibles en https://token-family.github.io/TokenOCR_project.
English
In recent years, general visual foundation models (VFMs) have witnessed
increasing adoption, particularly as image encoders for popular multi-modal
large language models (MLLMs). However, without semantically fine-grained
supervision, these models still encounter fundamental prediction errors in the
context of downstream text-image-related tasks, i.e., perception, understanding
and reasoning with images containing small and dense texts. To bridge this gap,
we develop TokenOCR, the first token-level visual foundation model specifically
tailored for text-image-related tasks, designed to support a variety of
traditional downstream applications. To facilitate the pretraining of TokenOCR,
we also devise a high-quality data production pipeline that constructs the
first token-level image text dataset, TokenIT, comprising 20 million images and
1.8 billion token-mask pairs. Furthermore, leveraging this foundation with
exceptional image-as-text capability, we seamlessly replace previous VFMs with
TokenOCR to construct a document-level MLLM, TokenVL, for VQA-based document
understanding tasks. Finally, extensive experiments demonstrate the
effectiveness of TokenOCR and TokenVL. Code, datasets, and weights will be
available at https://token-family.github.io/TokenOCR_project.Summary
AI-Generated Summary