Un Modello Fondamentale per Immagini di Testo a Livello di Token per la Comprensione dei Documenti
A Token-level Text Image Foundation Model for Document Understanding
March 4, 2025
Autori: Tongkun Guan, Zining Wang, Pei Fu, Zhengtao Guo, Wei Shen, Kai Zhou, Tiezhu Yue, Chen Duan, Hao Sun, Qianyi Jiang, Junfeng Luo, Xiaokang Yang
cs.AI
Abstract
Negli ultimi anni, i modelli visivi di base generali (VFMs) hanno visto un'adozione crescente, in particolare come encoder di immagini per i popolari modelli linguistici multimodali di grandi dimensioni (MLLMs). Tuttavia, senza una supervisione semanticamente granulare, questi modelli continuano a incontrare errori di previsione fondamentali nel contesto di attività downstream relative a testo e immagini, ovvero percezione, comprensione e ragionamento con immagini contenenti testi piccoli e densi. Per colmare questa lacuna, sviluppiamo TokenOCR, il primo modello visivo di base a livello di token specificamente progettato per attività relative a testo e immagini, concepito per supportare una varietà di applicazioni downstream tradizionali. Per facilitare il pre-addestramento di TokenOCR, abbiamo anche ideato una pipeline di produzione dati di alta qualità che costruisce il primo dataset di testo immagine a livello di token, TokenIT, comprendente 20 milioni di immagini e 1,8 miliardi di coppie token-maschera. Inoltre, sfruttando questa base con un'eccezionale capacità di trattare le immagini come testo, sostituiamo senza soluzione di continuità i precedenti VFMs con TokenOCR per costruire un MLLM a livello di documento, TokenVL, per attività di comprensione di documenti basate su VQA. Infine, esperimenti estensivi dimostrano l'efficacia di TokenOCR e TokenVL. Codice, dataset e pesi saranno disponibili su https://token-family.github.io/TokenOCR_project.
English
In recent years, general visual foundation models (VFMs) have witnessed
increasing adoption, particularly as image encoders for popular multi-modal
large language models (MLLMs). However, without semantically fine-grained
supervision, these models still encounter fundamental prediction errors in the
context of downstream text-image-related tasks, i.e., perception, understanding
and reasoning with images containing small and dense texts. To bridge this gap,
we develop TokenOCR, the first token-level visual foundation model specifically
tailored for text-image-related tasks, designed to support a variety of
traditional downstream applications. To facilitate the pretraining of TokenOCR,
we also devise a high-quality data production pipeline that constructs the
first token-level image text dataset, TokenIT, comprising 20 million images and
1.8 billion token-mask pairs. Furthermore, leveraging this foundation with
exceptional image-as-text capability, we seamlessly replace previous VFMs with
TokenOCR to construct a document-level MLLM, TokenVL, for VQA-based document
understanding tasks. Finally, extensive experiments demonstrate the
effectiveness of TokenOCR and TokenVL. Code, datasets, and weights will be
available at https://token-family.github.io/TokenOCR_project.Summary
AI-Generated Summary