Een Token-niveau Tekst Afbeelding Fundament Model voor Documentbegrip
A Token-level Text Image Foundation Model for Document Understanding
March 4, 2025
Auteurs: Tongkun Guan, Zining Wang, Pei Fu, Zhengtao Guo, Wei Shen, Kai Zhou, Tiezhu Yue, Chen Duan, Hao Sun, Qianyi Jiang, Junfeng Luo, Xiaokang Yang
cs.AI
Samenvatting
De afgelopen jaren hebben algemene visuele basismodellen (VFMs) een toenemende adoptie gezien, met name als beeldencoders voor populaire multimodale grote taalmodellen (MLLMs). Zonder semantisch fijnmazige begeleiding maken deze modellen echter nog steeds fundamentele voorspellingsfouten in de context van downstream taken die verband houden met tekst en beeld, zoals perceptie, begrip en redeneren met afbeeldingen die kleine en dichte teksten bevatten. Om deze kloof te overbruggen, ontwikkelen we TokenOCR, het eerste token-niveau visuele basismodel dat specifiek is afgestemd op taken die verband houden met tekst en beeld, ontworpen om een verscheidenheid aan traditionele downstream toepassingen te ondersteunen. Om de voorafgaande training van TokenOCR te vergemakkelijken, hebben we ook een hoogwaardige dataproductiepijplijn ontwikkeld die het eerste token-niveau beeldtekstdataset, TokenIT, construeert, bestaande uit 20 miljoen afbeeldingen en 1,8 miljard token-maskerparen. Bovendien maken we gebruik van deze basis met uitzonderlijke beeld-als-tekst-capaciteit om naadloos eerdere VFMs te vervangen door TokenOCR om een documentniveau MLLM, TokenVL, te construeren voor VQA-gebaseerde documentbegriptaken. Ten slotte tonen uitgebreide experimenten de effectiviteit van TokenOCR en TokenVL aan. Code, datasets en gewichten zullen beschikbaar zijn op https://token-family.github.io/TokenOCR_project.
English
In recent years, general visual foundation models (VFMs) have witnessed
increasing adoption, particularly as image encoders for popular multi-modal
large language models (MLLMs). However, without semantically fine-grained
supervision, these models still encounter fundamental prediction errors in the
context of downstream text-image-related tasks, i.e., perception, understanding
and reasoning with images containing small and dense texts. To bridge this gap,
we develop TokenOCR, the first token-level visual foundation model specifically
tailored for text-image-related tasks, designed to support a variety of
traditional downstream applications. To facilitate the pretraining of TokenOCR,
we also devise a high-quality data production pipeline that constructs the
first token-level image text dataset, TokenIT, comprising 20 million images and
1.8 billion token-mask pairs. Furthermore, leveraging this foundation with
exceptional image-as-text capability, we seamlessly replace previous VFMs with
TokenOCR to construct a document-level MLLM, TokenVL, for VQA-based document
understanding tasks. Finally, extensive experiments demonstrate the
effectiveness of TokenOCR and TokenVL. Code, datasets, and weights will be
available at https://token-family.github.io/TokenOCR_project.Summary
AI-Generated Summary