Ajuste de Tokenizador de Visão de Ponta a Ponta
End-to-End Vision Tokenizer Tuning
May 15, 2025
Autores: Wenxuan Wang, Fan Zhang, Yufeng Cui, Haiwen Diao, Zhuoyan Luo, Huchuan Lu, Jing Liu, Xinlong Wang
cs.AI
Resumo
A tokenização visual existente isola a otimização dos tokenizadores visuais
do treinamento subsequente, assumindo implicitamente que os tokens visuais podem generalizar
bem em várias tarefas, por exemplo, geração de imagens e resposta a perguntas
visuais. O tokenizador visual otimizado para reconstrução de baixo nível é
agnóstico em relação a tarefas subsequentes que exigem representações e semânticas variadas.
Esse paradigma desacoplado introduz um desalinhamento crítico: A perda da
tokenização visual pode ser o gargalo de representação para as tarefas-alvo. Por
exemplo, erros na tokenização de texto em uma determinada imagem levam a resultados ruins ao
reconhecê-lo ou gerá-lo. Para resolver isso, propomos o ETT, uma abordagem de ajuste
de tokenizador visual de ponta a ponta que permite a otimização conjunta entre a
tokenização visual e tarefas autoregressivas-alvo. Diferente de modelos autoregressivos
anteriores que usam apenas índices discretos de um tokenizador visual congelado, o ETT
aproveita os embeddings visuais do codebook do tokenizador e otimiza os
tokenizadores visuais de ponta a ponta com objetivos de reconstrução e legendagem.
O ETT pode ser integrado de forma contínua aos pipelines de treinamento existentes com modificações
mínimas na arquitetura. Nosso ETT é simples de implementar e integrar,
sem a necessidade de ajustar os codebooks ou arquiteturas originais dos
grandes modelos de linguagem empregados. Experimentos extensivos demonstram que nosso
ajuste de tokenizador visual de ponta a ponta proposto desbloqueia ganhos significativos de desempenho,
ou seja, 2-6% para tarefas de entendimento multimodal e geração visual
em comparação com baselines de tokenizadores congelados, enquanto preserva a capacidade
original de reconstrução. Esperamos que este método muito simples e eficaz possa
capacitar modelos de base multimodal além da geração e entendimento de imagens.
English
Existing vision tokenization isolates the optimization of vision tokenizers
from downstream training, implicitly assuming the visual tokens can generalize
well across various tasks, e.g., image generation and visual question
answering. The vision tokenizer optimized for low-level reconstruction is
agnostic to downstream tasks requiring varied representations and semantics.
This decoupled paradigm introduces a critical misalignment: The loss of the
vision tokenization can be the representation bottleneck for target tasks. For
example, errors in tokenizing text in a given image lead to poor results when
recognizing or generating them. To address this, we propose ETT, an end-to-end
vision tokenizer tuning approach that enables joint optimization between vision
tokenization and target autoregressive tasks. Unlike prior autoregressive
models that use only discrete indices from a frozen vision tokenizer, ETT
leverages the visual embeddings of the tokenizer codebook, and optimizes the
vision tokenizers end-to-end with both reconstruction and caption objectives.
ETT can be seamlessly integrated into existing training pipelines with minimal
architecture modifications. Our ETT is simple to implement and integrate,
without the need to adjust the original codebooks or architectures of the
employed large language models. Extensive experiments demonstrate that our
proposed end-to-end vision tokenizer tuning unlocks significant performance
gains, i.e., 2-6% for multimodal understanding and visual generation tasks
compared to frozen tokenizer baselines, while preserving the original
reconstruction capability. We hope this very simple and strong method can
empower multimodal foundation models besides image generation and
understanding.