Un modèle fondamental d'image de texte au niveau des tokens pour la compréhension de documents
A Token-level Text Image Foundation Model for Document Understanding
March 4, 2025
Auteurs: Tongkun Guan, Zining Wang, Pei Fu, Zhengtao Guo, Wei Shen, Kai Zhou, Tiezhu Yue, Chen Duan, Hao Sun, Qianyi Jiang, Junfeng Luo, Xiaokang Yang
cs.AI
Résumé
Ces dernières années, les modèles visuels fondamentaux généraux (VFMs) ont connu une adoption croissante, en particulier en tant qu'encodeurs d'images pour les modèles de langage multi-modaux (MLLMs) populaires. Cependant, en l'absence d'une supervision sémantique fine, ces modèles continuent de rencontrer des erreurs de prédiction fondamentales dans le cadre de tâches en aval liées au texte et à l'image, c'est-à-dire la perception, la compréhension et le raisonnement avec des images contenant des textes petits et denses. Pour combler cette lacune, nous développons TokenOCR, le premier modèle visuel fondamentau au niveau des tokens spécifiquement conçu pour les tâches liées au texte et à l'image, destiné à soutenir une variété d'applications traditionnelles en aval. Pour faciliter le pré-entraînement de TokenOCR, nous avons également conçu un pipeline de production de données de haute qualité qui construit le premier jeu de données d'images textuelles au niveau des tokens, TokenIT, comprenant 20 millions d'images et 1,8 milliard de paires token-masque. De plus, en tirant parti de cette base avec une capacité exceptionnelle à traiter l'image comme du texte, nous remplaçons de manière transparente les VFMs précédents par TokenOCR pour construire un MLLM au niveau des documents, TokenVL, pour les tâches de compréhension de documents basées sur la VQA. Enfin, des expériences approfondies démontrent l'efficacité de TokenOCR et TokenVL. Le code, les jeux de données et les poids seront disponibles à l'adresse https://token-family.github.io/TokenOCR_project.
English
In recent years, general visual foundation models (VFMs) have witnessed
increasing adoption, particularly as image encoders for popular multi-modal
large language models (MLLMs). However, without semantically fine-grained
supervision, these models still encounter fundamental prediction errors in the
context of downstream text-image-related tasks, i.e., perception, understanding
and reasoning with images containing small and dense texts. To bridge this gap,
we develop TokenOCR, the first token-level visual foundation model specifically
tailored for text-image-related tasks, designed to support a variety of
traditional downstream applications. To facilitate the pretraining of TokenOCR,
we also devise a high-quality data production pipeline that constructs the
first token-level image text dataset, TokenIT, comprising 20 million images and
1.8 billion token-mask pairs. Furthermore, leveraging this foundation with
exceptional image-as-text capability, we seamlessly replace previous VFMs with
TokenOCR to construct a document-level MLLM, TokenVL, for VQA-based document
understanding tasks. Finally, extensive experiments demonstrate the
effectiveness of TokenOCR and TokenVL. Code, datasets, and weights will be
available at https://token-family.github.io/TokenOCR_project.Summary
AI-Generated Summary