Un Modello Fondamentale per Immagini di Testo a Livello di Token per la Comprensione dei Documenti

Abstract

Negli ultimi anni, i modelli visivi di base generali (VFMs) hanno visto un'adozione crescente, in particolare come encoder di immagini per i popolari modelli linguistici multimodali di grandi dimensioni (MLLMs). Tuttavia, senza una supervisione semanticamente granulare, questi modelli continuano a incontrare errori di previsione fondamentali nel contesto di attività downstream relative a testo e immagini, ovvero percezione, comprensione e ragionamento con immagini contenenti testi piccoli e densi. Per colmare questa lacuna, sviluppiamo TokenOCR, il primo modello visivo di base a livello di token specificamente progettato per attività relative a testo e immagini, concepito per supportare una varietà di applicazioni downstream tradizionali. Per facilitare il pre-addestramento di TokenOCR, abbiamo anche ideato una pipeline di produzione dati di alta qualità che costruisce il primo dataset di testo immagine a livello di token, TokenIT, comprendente 20 milioni di immagini e 1,8 miliardi di coppie token-maschera. Inoltre, sfruttando questa base con un'eccezionale capacità di trattare le immagini come testo, sostituiamo senza soluzione di continuità i precedenti VFMs con TokenOCR per costruire un MLLM a livello di documento, TokenVL, per attività di comprensione di documenti basate su VQA. Infine, esperimenti estensivi dimostrano l'efficacia di TokenOCR e TokenVL. Codice, dataset e pesi saranno disponibili su https://token-family.github.io/TokenOCR_project.

English

In recent years, general visual foundation models (VFMs) have witnessed increasing adoption, particularly as image encoders for popular multi-modal large language models (MLLMs). However, without semantically fine-grained supervision, these models still encounter fundamental prediction errors in the context of downstream text-image-related tasks, i.e., perception, understanding and reasoning with images containing small and dense texts. To bridge this gap, we develop TokenOCR, the first token-level visual foundation model specifically tailored for text-image-related tasks, designed to support a variety of traditional downstream applications. To facilitate the pretraining of TokenOCR, we also devise a high-quality data production pipeline that constructs the first token-level image text dataset, TokenIT, comprising 20 million images and 1.8 billion token-mask pairs. Furthermore, leveraging this foundation with exceptional image-as-text capability, we seamlessly replace previous VFMs with TokenOCR to construct a document-level MLLM, TokenVL, for VQA-based document understanding tasks. Finally, extensive experiments demonstrate the effectiveness of TokenOCR and TokenVL. Code, datasets, and weights will be available at https://token-family.github.io/TokenOCR_project.

Un Modello Fondamentale per Immagini di Testo a Livello di Token per la Comprensione dei Documenti

A Token-level Text Image Foundation Model for Document Understanding

Abstract

Support