Ajuste de Tokenizador Visual de Extremo a Extremo

Resumen

La tokenización visual existente aísla la optimización de los tokenizadores visuales del entrenamiento descendente, asumiendo implícitamente que los tokens visuales pueden generalizarse bien en diversas tareas, como la generación de imágenes y la respuesta a preguntas visuales. El tokenizador visual optimizado para la reconstrucción de bajo nivel es agnóstico a las tareas descendentes que requieren representaciones y semánticas variadas. Este paradigma desacoplado introduce un desalineamiento crítico: la pérdida en la tokenización visual puede convertirse en un cuello de botella de representación para las tareas objetivo. Por ejemplo, los errores al tokenizar texto en una imagen dada conducen a resultados deficientes al reconocerlo o generarlo. Para abordar esto, proponemos ETT, un enfoque de ajuste de tokenización visual de extremo a extremo que permite la optimización conjunta entre la tokenización visual y las tareas autorregresivas objetivo. A diferencia de los modelos autorregresivos previos que utilizan únicamente índices discretos de un tokenizador visual congelado, ETT aprovecha los embeddings visuales del codebook del tokenizador y optimiza los tokenizadores visuales de extremo a extremo con objetivos tanto de reconstrucción como de generación de descripciones. ETT puede integrarse sin problemas en las canalizaciones de entrenamiento existentes con modificaciones mínimas en la arquitectura. Nuestro ETT es simple de implementar e integrar, sin necesidad de ajustar los codebooks originales o las arquitecturas de los grandes modelos de lenguaje empleados. Experimentos extensos demuestran que nuestro enfoque de ajuste de tokenización visual de extremo a extremo desbloquea mejoras significativas en el rendimiento, es decir, del 2 al 6% en tareas de comprensión multimodal y generación visual en comparación con líneas base de tokenizadores congelados, mientras se preserva la capacidad de reconstrucción original. Esperamos que este método tan simple y potente pueda potenciar los modelos fundacionales multimodales más allá de la generación y comprensión de imágenes.

English

Existing vision tokenization isolates the optimization of vision tokenizers from downstream training, implicitly assuming the visual tokens can generalize well across various tasks, e.g., image generation and visual question answering. The vision tokenizer optimized for low-level reconstruction is agnostic to downstream tasks requiring varied representations and semantics. This decoupled paradigm introduces a critical misalignment: The loss of the vision tokenization can be the representation bottleneck for target tasks. For example, errors in tokenizing text in a given image lead to poor results when recognizing or generating them. To address this, we propose ETT, an end-to-end vision tokenizer tuning approach that enables joint optimization between vision tokenization and target autoregressive tasks. Unlike prior autoregressive models that use only discrete indices from a frozen vision tokenizer, ETT leverages the visual embeddings of the tokenizer codebook, and optimizes the vision tokenizers end-to-end with both reconstruction and caption objectives. ETT can be seamlessly integrated into existing training pipelines with minimal architecture modifications. Our ETT is simple to implement and integrate, without the need to adjust the original codebooks or architectures of the employed large language models. Extensive experiments demonstrate that our proposed end-to-end vision tokenizer tuning unlocks significant performance gains, i.e., 2-6% for multimodal understanding and visual generation tasks compared to frozen tokenizer baselines, while preserving the original reconstruction capability. We hope this very simple and strong method can empower multimodal foundation models besides image generation and understanding.

Ajuste de Tokenizador Visual de Extremo a Extremo

End-to-End Vision Tokenizer Tuning

Resumen

Support