Ajuste de Tokenizador Visual de Extremo a Extremo
End-to-End Vision Tokenizer Tuning
May 15, 2025
Autores: Wenxuan Wang, Fan Zhang, Yufeng Cui, Haiwen Diao, Zhuoyan Luo, Huchuan Lu, Jing Liu, Xinlong Wang
cs.AI
Resumen
La tokenización visual existente aísla la optimización de los tokenizadores visuales del entrenamiento descendente, asumiendo implícitamente que los tokens visuales pueden generalizarse bien en diversas tareas, como la generación de imágenes y la respuesta a preguntas visuales. El tokenizador visual optimizado para la reconstrucción de bajo nivel es agnóstico a las tareas descendentes que requieren representaciones y semánticas variadas. Este paradigma desacoplado introduce un desalineamiento crítico: la pérdida en la tokenización visual puede convertirse en un cuello de botella de representación para las tareas objetivo. Por ejemplo, los errores al tokenizar texto en una imagen dada conducen a resultados deficientes al reconocerlo o generarlo. Para abordar esto, proponemos ETT, un enfoque de ajuste de tokenización visual de extremo a extremo que permite la optimización conjunta entre la tokenización visual y las tareas autorregresivas objetivo. A diferencia de los modelos autorregresivos previos que utilizan únicamente índices discretos de un tokenizador visual congelado, ETT aprovecha los embeddings visuales del codebook del tokenizador y optimiza los tokenizadores visuales de extremo a extremo con objetivos tanto de reconstrucción como de generación de descripciones. ETT puede integrarse sin problemas en las canalizaciones de entrenamiento existentes con modificaciones mínimas en la arquitectura. Nuestro ETT es simple de implementar e integrar, sin necesidad de ajustar los codebooks originales o las arquitecturas de los grandes modelos de lenguaje empleados. Experimentos extensos demuestran que nuestro enfoque de ajuste de tokenización visual de extremo a extremo desbloquea mejoras significativas en el rendimiento, es decir, del 2 al 6% en tareas de comprensión multimodal y generación visual en comparación con líneas base de tokenizadores congelados, mientras se preserva la capacidad de reconstrucción original. Esperamos que este método tan simple y potente pueda potenciar los modelos fundacionales multimodales más allá de la generación y comprensión de imágenes.
English
Existing vision tokenization isolates the optimization of vision tokenizers
from downstream training, implicitly assuming the visual tokens can generalize
well across various tasks, e.g., image generation and visual question
answering. The vision tokenizer optimized for low-level reconstruction is
agnostic to downstream tasks requiring varied representations and semantics.
This decoupled paradigm introduces a critical misalignment: The loss of the
vision tokenization can be the representation bottleneck for target tasks. For
example, errors in tokenizing text in a given image lead to poor results when
recognizing or generating them. To address this, we propose ETT, an end-to-end
vision tokenizer tuning approach that enables joint optimization between vision
tokenization and target autoregressive tasks. Unlike prior autoregressive
models that use only discrete indices from a frozen vision tokenizer, ETT
leverages the visual embeddings of the tokenizer codebook, and optimizes the
vision tokenizers end-to-end with both reconstruction and caption objectives.
ETT can be seamlessly integrated into existing training pipelines with minimal
architecture modifications. Our ETT is simple to implement and integrate,
without the need to adjust the original codebooks or architectures of the
employed large language models. Extensive experiments demonstrate that our
proposed end-to-end vision tokenizer tuning unlocks significant performance
gains, i.e., 2-6% for multimodal understanding and visual generation tasks
compared to frozen tokenizer baselines, while preserving the original
reconstruction capability. We hope this very simple and strong method can
empower multimodal foundation models besides image generation and
understanding.Summary
AI-Generated Summary