Ottimizzazione End-to-End del Tokenizzatore Visivo
End-to-End Vision Tokenizer Tuning
May 15, 2025
Autori: Wenxuan Wang, Fan Zhang, Yufeng Cui, Haiwen Diao, Zhuoyan Luo, Huchuan Lu, Jing Liu, Xinlong Wang
cs.AI
Abstract
L'attuale tokenizzazione visiva isola l'ottimizzazione dei tokenizzatori visivi dall'addestramento a valle, assumendo implicitamente che i token visivi possano generalizzarsi bene attraverso vari compiti, come la generazione di immagini e il question answering visivo. Il tokenizzatore visivo ottimizzato per la ricostruzione di basso livello è agnostico rispetto ai compiti a valle che richiedono rappresentazioni e semantiche variate. Questo paradigma disaccoppiato introduce un disallineamento critico: la perdita nella tokenizzazione visiva può rappresentare un collo di bottiglia per i compiti target. Ad esempio, errori nella tokenizzazione del testo in una determinata immagine portano a risultati scarsi quando si cerca di riconoscerlo o generarlo. Per affrontare questo problema, proponiamo ETT, un approccio di ottimizzazione end-to-end del tokenizzatore visivo che consente l'ottimizzazione congiunta tra la tokenizzazione visiva e i compiti autoregressivi target. A differenza dei precedenti modelli autoregressivi che utilizzano solo indici discreti da un tokenizzatore visivo congelato, ETT sfrutta gli embedding visivi del codebook del tokenizzatore e ottimizza i tokenizzatori visivi end-to-end con obiettivi sia di ricostruzione che di generazione di didascalie. ETT può essere integrato senza soluzione di continuità nelle pipeline di addestramento esistenti con modifiche minime all'architettura. Il nostro ETT è semplice da implementare e integrare, senza la necessità di modificare i codebook originali o le architetture dei grandi modelli linguistici impiegati. Esperimenti estensivi dimostrano che la nostra proposta di ottimizzazione end-to-end del tokenizzatore visivo sblocca significativi miglioramenti delle prestazioni, ad esempio, del 2-6% per i compiti di comprensione multimodale e generazione visiva rispetto ai baseline con tokenizzatore congelato, preservando al contempo la capacità di ricostruzione originale. Speriamo che questo metodo molto semplice ed efficace possa potenziare i modelli fondazionali multimodali oltre alla generazione e comprensione di immagini.
English
Existing vision tokenization isolates the optimization of vision tokenizers
from downstream training, implicitly assuming the visual tokens can generalize
well across various tasks, e.g., image generation and visual question
answering. The vision tokenizer optimized for low-level reconstruction is
agnostic to downstream tasks requiring varied representations and semantics.
This decoupled paradigm introduces a critical misalignment: The loss of the
vision tokenization can be the representation bottleneck for target tasks. For
example, errors in tokenizing text in a given image lead to poor results when
recognizing or generating them. To address this, we propose ETT, an end-to-end
vision tokenizer tuning approach that enables joint optimization between vision
tokenization and target autoregressive tasks. Unlike prior autoregressive
models that use only discrete indices from a frozen vision tokenizer, ETT
leverages the visual embeddings of the tokenizer codebook, and optimizes the
vision tokenizers end-to-end with both reconstruction and caption objectives.
ETT can be seamlessly integrated into existing training pipelines with minimal
architecture modifications. Our ETT is simple to implement and integrate,
without the need to adjust the original codebooks or architectures of the
employed large language models. Extensive experiments demonstrate that our
proposed end-to-end vision tokenizer tuning unlocks significant performance
gains, i.e., 2-6% for multimodal understanding and visual generation tasks
compared to frozen tokenizer baselines, while preserving the original
reconstruction capability. We hope this very simple and strong method can
empower multimodal foundation models besides image generation and
understanding.