Ein Token-Level-Textbild-Grundlagenmodell für das Verständnis von Dokumenten
A Token-level Text Image Foundation Model for Document Understanding
March 4, 2025
Autoren: Tongkun Guan, Zining Wang, Pei Fu, Zhengtao Guo, Wei Shen, Kai Zhou, Tiezhu Yue, Chen Duan, Hao Sun, Qianyi Jiang, Junfeng Luo, Xiaokang Yang
cs.AI
Zusammenfassung
In den letzten Jahren haben sich allgemeine visuelle Basismodelle (VFMs) zunehmend verbreitet, insbesondere als Bild-Encoder für beliebte multimodale große Sprachmodelle (MLLMs). Ohne semantisch fein abgestimmte Überwachung stoßen diese Modelle jedoch weiterhin auf grundlegende Vorhersagefehler im Kontext von nachgelagerten Text-Bild-bezogenen Aufgaben, d. h. bei der Wahrnehmung, dem Verständnis und der Schlussfolgerung mit Bildern, die kleine und dichte Texte enthalten. Um diese Lücke zu schließen, entwickeln wir TokenOCR, das erste token-spezifische visuelle Basismodell, das speziell für Text-Bild-bezogene Aufgaben konzipiert ist und eine Vielzahl traditioneller nachgelagerter Anwendungen unterstützt. Um das Pretraining von TokenOCR zu erleichtern, entwickeln wir außerdem eine hochwertige Datenproduktionspipeline, die den ersten token-spezifischen Bildtextdatensatz, TokenIT, erstellt, der 20 Millionen Bilder und 1,8 Milliarden Token-Masken-Paare umfasst. Darüber hinaus nutzen wir diese Grundlage mit außergewöhnlicher Bild-als-Text-Fähigkeit, um frühere VFMs nahtlos durch TokenOCR zu ersetzen und ein dokumentenbasiertes MLLM, TokenVL, für VQA-basierte Dokumentverständnisaufgaben zu konstruieren. Schließlich zeigen umfangreiche Experimente die Wirksamkeit von TokenOCR und TokenVL. Code, Datensätze und Gewichte werden unter https://token-family.github.io/TokenOCR_project verfügbar sein.
English
In recent years, general visual foundation models (VFMs) have witnessed
increasing adoption, particularly as image encoders for popular multi-modal
large language models (MLLMs). However, without semantically fine-grained
supervision, these models still encounter fundamental prediction errors in the
context of downstream text-image-related tasks, i.e., perception, understanding
and reasoning with images containing small and dense texts. To bridge this gap,
we develop TokenOCR, the first token-level visual foundation model specifically
tailored for text-image-related tasks, designed to support a variety of
traditional downstream applications. To facilitate the pretraining of TokenOCR,
we also devise a high-quality data production pipeline that constructs the
first token-level image text dataset, TokenIT, comprising 20 million images and
1.8 billion token-mask pairs. Furthermore, leveraging this foundation with
exceptional image-as-text capability, we seamlessly replace previous VFMs with
TokenOCR to construct a document-level MLLM, TokenVL, for VQA-based document
understanding tasks. Finally, extensive experiments demonstrate the
effectiveness of TokenOCR and TokenVL. Code, datasets, and weights will be
available at https://token-family.github.io/TokenOCR_project.Summary
AI-Generated Summary