Réglage de Tokeniseur Visuel de Bout en Bout
End-to-End Vision Tokenizer Tuning
May 15, 2025
Auteurs: Wenxuan Wang, Fan Zhang, Yufeng Cui, Haiwen Diao, Zhuoyan Luo, Huchuan Lu, Jing Liu, Xinlong Wang
cs.AI
Résumé
La tokenisation visuelle existante isole l'optimisation des tokenizers visuels
de l'entraînement en aval, supposant implicitement que les tokens visuels peuvent
généraliser efficacement à travers diverses tâches, telles que la génération d'images
et la réponse à des questions visuelles. Le tokenizer visuel optimisé pour la
reconstruction de bas niveau est agnostique aux tâches en aval nécessitant des
représentations et sémantiques variées. Ce paradigme découplé introduit un
désalignement critique : la perte lors de la tokenisation visuelle peut constituer
un goulot d'étranglement pour les représentations des tâches cibles. Par exemple,
des erreurs dans la tokenisation du texte d'une image donnée entraînent de
mauvais résultats lors de sa reconnaissance ou de sa génération. Pour résoudre
ce problème, nous proposons ETT, une approche de réglage de tokenizer visuel
de bout en bout qui permet une optimisation conjointe entre la tokenisation
visuelle et les tâches autorégressives cibles. Contrairement aux modèles
autorégressifs précédents qui utilisent uniquement des indices discrets provenant
d'un tokenizer visuel figé, ETT exploite les embeddings visuels du codebook du
tokenizer et optimise les tokenizers visuels de bout en bout avec des objectifs
de reconstruction et de description. ETT peut être intégré de manière transparente
dans les pipelines d'entraînement existants avec des modifications architecturales
minimales. Notre ETT est simple à implémenter et à intégrer, sans nécessiter
d'ajuster les codebooks ou les architectures des grands modèles de langage
utilisés. Des expériences approfondies démontrent que notre approche de
réglage de tokenizer visuel de bout en bout permet des gains de performance
significatifs, c'est-à-dire de 2 à 6 % pour les tâches de compréhension multimodale
et de génération visuelle par rapport aux bases de référence utilisant des
tokenizers figés, tout en préservant la capacité de reconstruction d'origine. Nous
espérons que cette méthode très simple et efficace pourra renforcer les modèles
fondamentaux multimodaux au-delà de la génération et de la compréhension
d'images.
English
Existing vision tokenization isolates the optimization of vision tokenizers
from downstream training, implicitly assuming the visual tokens can generalize
well across various tasks, e.g., image generation and visual question
answering. The vision tokenizer optimized for low-level reconstruction is
agnostic to downstream tasks requiring varied representations and semantics.
This decoupled paradigm introduces a critical misalignment: The loss of the
vision tokenization can be the representation bottleneck for target tasks. For
example, errors in tokenizing text in a given image lead to poor results when
recognizing or generating them. To address this, we propose ETT, an end-to-end
vision tokenizer tuning approach that enables joint optimization between vision
tokenization and target autoregressive tasks. Unlike prior autoregressive
models that use only discrete indices from a frozen vision tokenizer, ETT
leverages the visual embeddings of the tokenizer codebook, and optimizes the
vision tokenizers end-to-end with both reconstruction and caption objectives.
ETT can be seamlessly integrated into existing training pipelines with minimal
architecture modifications. Our ETT is simple to implement and integrate,
without the need to adjust the original codebooks or architectures of the
employed large language models. Extensive experiments demonstrate that our
proposed end-to-end vision tokenizer tuning unlocks significant performance
gains, i.e., 2-6% for multimodal understanding and visual generation tasks
compared to frozen tokenizer baselines, while preserving the original
reconstruction capability. We hope this very simple and strong method can
empower multimodal foundation models besides image generation and
understanding.Summary
AI-Generated Summary