ChatPaper.aiChatPaper

Réglage de Tokeniseur Visuel de Bout en Bout

End-to-End Vision Tokenizer Tuning

May 15, 2025
Auteurs: Wenxuan Wang, Fan Zhang, Yufeng Cui, Haiwen Diao, Zhuoyan Luo, Huchuan Lu, Jing Liu, Xinlong Wang
cs.AI

Résumé

La tokenisation visuelle existante isole l'optimisation des tokenizers visuels de l'entraînement en aval, supposant implicitement que les tokens visuels peuvent généraliser efficacement à travers diverses tâches, telles que la génération d'images et la réponse à des questions visuelles. Le tokenizer visuel optimisé pour la reconstruction de bas niveau est agnostique aux tâches en aval nécessitant des représentations et sémantiques variées. Ce paradigme découplé introduit un désalignement critique : la perte lors de la tokenisation visuelle peut constituer un goulot d'étranglement pour les représentations des tâches cibles. Par exemple, des erreurs dans la tokenisation du texte d'une image donnée entraînent de mauvais résultats lors de sa reconnaissance ou de sa génération. Pour résoudre ce problème, nous proposons ETT, une approche de réglage de tokenizer visuel de bout en bout qui permet une optimisation conjointe entre la tokenisation visuelle et les tâches autorégressives cibles. Contrairement aux modèles autorégressifs précédents qui utilisent uniquement des indices discrets provenant d'un tokenizer visuel figé, ETT exploite les embeddings visuels du codebook du tokenizer et optimise les tokenizers visuels de bout en bout avec des objectifs de reconstruction et de description. ETT peut être intégré de manière transparente dans les pipelines d'entraînement existants avec des modifications architecturales minimales. Notre ETT est simple à implémenter et à intégrer, sans nécessiter d'ajuster les codebooks ou les architectures des grands modèles de langage utilisés. Des expériences approfondies démontrent que notre approche de réglage de tokenizer visuel de bout en bout permet des gains de performance significatifs, c'est-à-dire de 2 à 6 % pour les tâches de compréhension multimodale et de génération visuelle par rapport aux bases de référence utilisant des tokenizers figés, tout en préservant la capacité de reconstruction d'origine. Nous espérons que cette méthode très simple et efficace pourra renforcer les modèles fondamentaux multimodaux au-delà de la génération et de la compréhension d'images.
English
Existing vision tokenization isolates the optimization of vision tokenizers from downstream training, implicitly assuming the visual tokens can generalize well across various tasks, e.g., image generation and visual question answering. The vision tokenizer optimized for low-level reconstruction is agnostic to downstream tasks requiring varied representations and semantics. This decoupled paradigm introduces a critical misalignment: The loss of the vision tokenization can be the representation bottleneck for target tasks. For example, errors in tokenizing text in a given image lead to poor results when recognizing or generating them. To address this, we propose ETT, an end-to-end vision tokenizer tuning approach that enables joint optimization between vision tokenization and target autoregressive tasks. Unlike prior autoregressive models that use only discrete indices from a frozen vision tokenizer, ETT leverages the visual embeddings of the tokenizer codebook, and optimizes the vision tokenizers end-to-end with both reconstruction and caption objectives. ETT can be seamlessly integrated into existing training pipelines with minimal architecture modifications. Our ETT is simple to implement and integrate, without the need to adjust the original codebooks or architectures of the employed large language models. Extensive experiments demonstrate that our proposed end-to-end vision tokenizer tuning unlocks significant performance gains, i.e., 2-6% for multimodal understanding and visual generation tasks compared to frozen tokenizer baselines, while preserving the original reconstruction capability. We hope this very simple and strong method can empower multimodal foundation models besides image generation and understanding.

Summary

AI-Generated Summary

PDF153May 16, 2025