QLIP: Tokenización Visual Alineada con Texto Unifica la Comprensión y Generación Multimodal Auto-Regresiva.
QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation
February 7, 2025
Autores: Yue Zhao, Fuzhao Xue, Scott Reed, Linxi Fan, Yuke Zhu, Jan Kautz, Zhiding Yu, Philipp Krähenbühl, De-An Huang
cs.AI
Resumen
Introducimos Quantized Language-Image Pretraining (QLIP), un método de tokenización visual que combina calidad de reconstrucción de vanguardia con comprensión de imágenes sin necesidad de entrenamiento. QLIP entrena un autoencoder basado en cuantización binaria esférica con objetivos de reconstrucción y alineación de lenguaje-imagen. Somos los primeros en demostrar que estos dos objetivos no necesariamente entran en conflicto. Equilibramos dinámicamente los dos términos de pérdida durante el entrenamiento y mostramos que un proceso de entrenamiento en dos etapas mezcla de manera efectiva los requisitos de gran lote para el pre-entrenamiento de imágenes y lenguaje con el cuello de botella de memoria impuesto por el objetivo de reconstrucción. Validamos la efectividad de QLIP para comprensión multimodal y generación de imágenes condicionadas por texto con un solo modelo. Específicamente, QLIP sirve como un reemplazo directo para el codificador visual de LLaVA y el tokenizador de imágenes para LlamaGen con un rendimiento comparable o incluso mejor. Finalmente, demostramos que QLIP permite un modelo auto-regresivo unificado de modalidad mixta para comprensión y generación.
English
We introduce Quantized Language-Image Pretraining (QLIP), a visual
tokenization method that combines state-of-the-art reconstruction quality with
state-of-the-art zero-shot image understanding. QLIP trains a
binary-spherical-quantization-based autoencoder with reconstruction and
language-image alignment objectives. We are the first to show that the two
objectives do not need to be at odds. We balance the two loss terms dynamically
during training and show that a two-stage training pipeline effectively mixes
the large-batch requirements of image-language pre-training with the memory
bottleneck imposed by the reconstruction objective. We validate the
effectiveness of QLIP for multimodal understanding and text-conditioned image
generation with a single model. Specifically, QLIP serves as a drop-in
replacement for the visual encoder for LLaVA and the image tokenizer for
LlamaGen with comparable or even better performance. Finally, we demonstrate
that QLIP enables a unified mixed-modality auto-regressive model for
understanding and generation.Summary
AI-Generated Summary