ChatPaper.aiChatPaper

End-to-End Visuele Tokenizer Afstemming

End-to-End Vision Tokenizer Tuning

May 15, 2025
Auteurs: Wenxuan Wang, Fan Zhang, Yufeng Cui, Haiwen Diao, Zhuoyan Luo, Huchuan Lu, Jing Liu, Xinlong Wang
cs.AI

Samenvatting

Bestaande visuele tokenisatie isoleert de optimalisatie van visuele tokenizers van downstream training, waarbij impliciet wordt aangenomen dat de visuele tokens goed kunnen generaliseren over verschillende taken, zoals beeldgeneratie en visuele vraagbeantwoording. De visuele tokenizer die is geoptimaliseerd voor laag-niveau reconstructie is onbewust van downstream taken die uiteenlopende representaties en semantiek vereisen. Dit ontkoppelde paradigma introduceert een kritische misalignering: Het verlies van de visuele tokenisatie kan de representatiebottleneck vormen voor doeltaken. Bijvoorbeeld, fouten in het tokeniseren van tekst in een gegeven afbeelding leiden tot slechte resultaten bij het herkennen of genereren ervan. Om dit aan te pakken, stellen we ETT voor, een end-to-end visuele tokenizer afstemmingsbenadering die gezamenlijke optimalisatie mogelijk maakt tussen visuele tokenisatie en doel autoregressieve taken. In tegenstelling tot eerdere autoregressieve modellen die alleen discrete indices gebruiken van een bevroren visuele tokenizer, benut ETT de visuele embeddings van de tokenizer codebook, en optimaliseert de visuele tokenizers end-to-end met zowel reconstructie- als bijschriftdoelstellingen. ETT kan naadloos worden geïntegreerd in bestaande trainingspijplijnen met minimale architectuurwijzigingen. Onze ETT is eenvoudig te implementeren en te integreren, zonder dat de originele codebooks of architecturen van de gebruikte grote taalmodellen hoeven te worden aangepast. Uitgebreide experimenten tonen aan dat onze voorgestelde end-to-end visuele tokenizer afstemming aanzienlijke prestatieverbeteringen oplevert, d.w.z. 2-6% voor multimodale begrips- en visuele generatietaken in vergelijking met bevroren tokenizer baselines, terwijl de oorspronkelijke reconstructiecapaciteit behouden blijft. We hopen dat deze zeer eenvoudige en krachtige methode multimodale foundation modellen kan versterken naast beeldgeneratie en -begrip.
English
Existing vision tokenization isolates the optimization of vision tokenizers from downstream training, implicitly assuming the visual tokens can generalize well across various tasks, e.g., image generation and visual question answering. The vision tokenizer optimized for low-level reconstruction is agnostic to downstream tasks requiring varied representations and semantics. This decoupled paradigm introduces a critical misalignment: The loss of the vision tokenization can be the representation bottleneck for target tasks. For example, errors in tokenizing text in a given image lead to poor results when recognizing or generating them. To address this, we propose ETT, an end-to-end vision tokenizer tuning approach that enables joint optimization between vision tokenization and target autoregressive tasks. Unlike prior autoregressive models that use only discrete indices from a frozen vision tokenizer, ETT leverages the visual embeddings of the tokenizer codebook, and optimizes the vision tokenizers end-to-end with both reconstruction and caption objectives. ETT can be seamlessly integrated into existing training pipelines with minimal architecture modifications. Our ETT is simple to implement and integrate, without the need to adjust the original codebooks or architectures of the employed large language models. Extensive experiments demonstrate that our proposed end-to-end vision tokenizer tuning unlocks significant performance gains, i.e., 2-6% for multimodal understanding and visual generation tasks compared to frozen tokenizer baselines, while preserving the original reconstruction capability. We hope this very simple and strong method can empower multimodal foundation models besides image generation and understanding.

Summary

AI-Generated Summary

PDF193May 16, 2025