문서 이해를 위한 토큰 수준 텍스트 이미지 기반 모델
A Token-level Text Image Foundation Model for Document Understanding
March 4, 2025
저자: Tongkun Guan, Zining Wang, Pei Fu, Zhengtao Guo, Wei Shen, Kai Zhou, Tiezhu Yue, Chen Duan, Hao Sun, Qianyi Jiang, Junfeng Luo, Xiaokang Yang
cs.AI
초록
최근 일반적인 시각 기반 모델(VFM)의 활용이 증가하고 있으며, 특히 인기 있는 다중 모달 대형 언어 모델(MLLM)의 이미지 인코더로 사용되고 있습니다. 그러나 의미론적으로 세밀한 감독 없이는 이러한 모델들이 하류 텍스트-이미지 관련 작업, 즉 작고 밀집된 텍스트가 포함된 이미지에 대한 인식, 이해 및 추론에서 근본적인 예측 오류를 겪고 있습니다. 이러한 격차를 해소하기 위해, 우리는 텍스트-이미지 관련 작업에 특화된 첫 번째 토큰 수준의 시각 기반 모델인 TokenOCR을 개발했습니다. 이 모델은 다양한 전통적인 하류 애플리케이션을 지원하도록 설계되었습니다. TokenOCR의 사전 학습을 용이하게 하기 위해, 우리는 또한 2천만 개의 이미지와 18억 개의 토큰-마스크 쌍으로 구성된 첫 번째 토큰 수준의 이미지 텍스트 데이터셋인 TokenIT를 구축하는 고품질 데이터 생산 파이프라인을 고안했습니다. 더 나아가, 이 탁월한 이미지-텍스트 능력을 기반으로 하여, 우리는 이전의 VFM을 TokenOCR로 원활하게 대체하여 VQA 기반 문서 이해 작업을 위한 문서 수준의 MLLM인 TokenVL을 구축했습니다. 마지막으로, 광범위한 실험을 통해 TokenOCR과 TokenVL의 효과성을 입증했습니다. 코드, 데이터셋 및 가중치는 https://token-family.github.io/TokenOCR_project에서 제공될 예정입니다.
English
In recent years, general visual foundation models (VFMs) have witnessed
increasing adoption, particularly as image encoders for popular multi-modal
large language models (MLLMs). However, without semantically fine-grained
supervision, these models still encounter fundamental prediction errors in the
context of downstream text-image-related tasks, i.e., perception, understanding
and reasoning with images containing small and dense texts. To bridge this gap,
we develop TokenOCR, the first token-level visual foundation model specifically
tailored for text-image-related tasks, designed to support a variety of
traditional downstream applications. To facilitate the pretraining of TokenOCR,
we also devise a high-quality data production pipeline that constructs the
first token-level image text dataset, TokenIT, comprising 20 million images and
1.8 billion token-mask pairs. Furthermore, leveraging this foundation with
exceptional image-as-text capability, we seamlessly replace previous VFMs with
TokenOCR to construct a document-level MLLM, TokenVL, for VQA-based document
understanding tasks. Finally, extensive experiments demonstrate the
effectiveness of TokenOCR and TokenVL. Code, datasets, and weights will be
available at https://token-family.github.io/TokenOCR_project.Summary
AI-Generated Summary