End-to-End Visuele Tokenizer Afstemming
End-to-End Vision Tokenizer Tuning
May 15, 2025
Auteurs: Wenxuan Wang, Fan Zhang, Yufeng Cui, Haiwen Diao, Zhuoyan Luo, Huchuan Lu, Jing Liu, Xinlong Wang
cs.AI
Samenvatting
Bestaande visuele tokenisatie isoleert de optimalisatie van visuele tokenizers
van downstream training, waarbij impliciet wordt aangenomen dat de visuele tokens
goed kunnen generaliseren over verschillende taken, zoals beeldgeneratie en visuele vraagbeantwoording.
De visuele tokenizer die is geoptimaliseerd voor laag-niveau reconstructie is
onbewust van downstream taken die uiteenlopende representaties en semantiek vereisen.
Dit ontkoppelde paradigma introduceert een kritische misalignering: Het verlies van de
visuele tokenisatie kan de representatiebottleneck vormen voor doeltaken. Bijvoorbeeld,
fouten in het tokeniseren van tekst in een gegeven afbeelding leiden tot slechte resultaten bij het herkennen
of genereren ervan. Om dit aan te pakken, stellen we ETT voor, een end-to-end
visuele tokenizer afstemmingsbenadering die gezamenlijke optimalisatie mogelijk maakt tussen visuele
tokenisatie en doel autoregressieve taken. In tegenstelling tot eerdere autoregressieve
modellen die alleen discrete indices gebruiken van een bevroren visuele tokenizer, benut ETT
de visuele embeddings van de tokenizer codebook, en optimaliseert de visuele tokenizers
end-to-end met zowel reconstructie- als bijschriftdoelstellingen. ETT kan naadloos worden
geïntegreerd in bestaande trainingspijplijnen met minimale architectuurwijzigingen. Onze ETT is eenvoudig
te implementeren en te integreren, zonder dat de originele codebooks of architecturen van de gebruikte
grote taalmodellen hoeven te worden aangepast. Uitgebreide experimenten tonen aan dat onze
voorgestelde end-to-end visuele tokenizer afstemming aanzienlijke prestatieverbeteringen oplevert,
d.w.z. 2-6% voor multimodale begrips- en visuele generatietaken in vergelijking met bevroren tokenizer
baselines, terwijl de oorspronkelijke reconstructiecapaciteit behouden blijft. We hopen dat deze zeer
eenvoudige en krachtige methode multimodale foundation modellen kan versterken naast beeldgeneratie en
-begrip.
English
Existing vision tokenization isolates the optimization of vision tokenizers
from downstream training, implicitly assuming the visual tokens can generalize
well across various tasks, e.g., image generation and visual question
answering. The vision tokenizer optimized for low-level reconstruction is
agnostic to downstream tasks requiring varied representations and semantics.
This decoupled paradigm introduces a critical misalignment: The loss of the
vision tokenization can be the representation bottleneck for target tasks. For
example, errors in tokenizing text in a given image lead to poor results when
recognizing or generating them. To address this, we propose ETT, an end-to-end
vision tokenizer tuning approach that enables joint optimization between vision
tokenization and target autoregressive tasks. Unlike prior autoregressive
models that use only discrete indices from a frozen vision tokenizer, ETT
leverages the visual embeddings of the tokenizer codebook, and optimizes the
vision tokenizers end-to-end with both reconstruction and caption objectives.
ETT can be seamlessly integrated into existing training pipelines with minimal
architecture modifications. Our ETT is simple to implement and integrate,
without the need to adjust the original codebooks or architectures of the
employed large language models. Extensive experiments demonstrate that our
proposed end-to-end vision tokenizer tuning unlocks significant performance
gains, i.e., 2-6% for multimodal understanding and visual generation tasks
compared to frozen tokenizer baselines, while preserving the original
reconstruction capability. We hope this very simple and strong method can
empower multimodal foundation models besides image generation and
understanding.Summary
AI-Generated Summary