End-to-End-Vision-Tokenizer-Optimierung
End-to-End Vision Tokenizer Tuning
May 15, 2025
Autoren: Wenxuan Wang, Fan Zhang, Yufeng Cui, Haiwen Diao, Zhuoyan Luo, Huchuan Lu, Jing Liu, Xinlong Wang
cs.AI
Zusammenfassung
Bestehende Vision-Tokenisierung isoliert die Optimierung von Vision-Tokenizern vom nachgelagerten Training, wobei implizit angenommen wird, dass die visuellen Token gut über verschiedene Aufgaben hinweg generalisieren können, z.B. Bildgenerierung und visuelle Fragebeantwortung. Der für die Rekonstruktion auf niedriger Ebene optimierte Vision-Tokenizer ist agnostisch gegenüber nachgelagerten Aufgaben, die unterschiedliche Repräsentationen und Semantiken erfordern. Dieses entkoppelte Paradigma führt zu einer kritischen Fehlausrichtung: Der Verlust bei der Vision-Tokenisierung kann den Repräsentationsengpass für Zielaufgaben darstellen. Zum Beispiel führen Fehler bei der Tokenisierung von Text in einem gegebenen Bild zu schlechten Ergebnissen bei der Erkennung oder Generierung. Um dies zu adressieren, schlagen wir ETT vor, einen End-to-End-Vision-Tokenizer-Tuning-Ansatz, der eine gemeinsame Optimierung zwischen Vision-Tokenisierung und Zielaufgaben mit autoregressiven Modellen ermöglicht. Im Gegensatz zu früheren autoregressiven Modellen, die nur diskrete Indizes eines eingefrorenen Vision-Tokenizers verwenden, nutzt ETT die visuellen Einbettungen des Tokenizer-Codebuchs und optimiert die Vision-Tokenizer End-to-End mit sowohl Rekonstruktions- als auch Beschreibungszielen. ETT kann nahtlos in bestehende Trainingspipelines integriert werden, mit minimalen Architekturänderungen. Unser ETT ist einfach zu implementieren und zu integrieren, ohne dass die ursprünglichen Codebücher oder Architekturen der verwendeten großen Sprachmodelle angepasst werden müssen. Umfangreiche Experimente zeigen, dass unser vorgeschlagenes End-to-End-Vision-Tokenizer-Tuning signifikante Leistungssteigerungen ermöglicht, d.h. 2-6% für multimodale Verständnis- und visuelle Generierungsaufgaben im Vergleich zu eingefrorenen Tokenizer-Baselines, während die ursprüngliche Rekonstruktionsfähigkeit erhalten bleibt. Wir hoffen, dass diese sehr einfache und effektive Methode multimodale Grundlagenmodelle neben der Bildgenerierung und -verständnis stärken kann.
English
Existing vision tokenization isolates the optimization of vision tokenizers
from downstream training, implicitly assuming the visual tokens can generalize
well across various tasks, e.g., image generation and visual question
answering. The vision tokenizer optimized for low-level reconstruction is
agnostic to downstream tasks requiring varied representations and semantics.
This decoupled paradigm introduces a critical misalignment: The loss of the
vision tokenization can be the representation bottleneck for target tasks. For
example, errors in tokenizing text in a given image lead to poor results when
recognizing or generating them. To address this, we propose ETT, an end-to-end
vision tokenizer tuning approach that enables joint optimization between vision
tokenization and target autoregressive tasks. Unlike prior autoregressive
models that use only discrete indices from a frozen vision tokenizer, ETT
leverages the visual embeddings of the tokenizer codebook, and optimizes the
vision tokenizers end-to-end with both reconstruction and caption objectives.
ETT can be seamlessly integrated into existing training pipelines with minimal
architecture modifications. Our ETT is simple to implement and integrate,
without the need to adjust the original codebooks or architectures of the
employed large language models. Extensive experiments demonstrate that our
proposed end-to-end vision tokenizer tuning unlocks significant performance
gains, i.e., 2-6% for multimodal understanding and visual generation tasks
compared to frozen tokenizer baselines, while preserving the original
reconstruction capability. We hope this very simple and strong method can
empower multimodal foundation models besides image generation and
understanding.Summary
AI-Generated Summary