QLIP: Tokenizzazione visuale allineata al testo unifica la comprensione e la generazione multimodale auto-regressiva.
QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation
February 7, 2025
Autori: Yue Zhao, Fuzhao Xue, Scott Reed, Linxi Fan, Yuke Zhu, Jan Kautz, Zhiding Yu, Philipp Krähenbühl, De-An Huang
cs.AI
Abstract
Introduciamo Quantized Language-Image Pretraining (QLIP), un metodo di tokenizzazione visiva che combina la qualità di ricostruzione all'avanguardia con la comprensione delle immagini senza supervisione all'avanguardia. QLIP addestra un autoencoder basato sulla quantizzazione binaria sferica con obiettivi di ricostruzione e allineamento lingua-immagine. Siamo i primi a mostrare che i due obiettivi non devono essere in contrasto. Bilanciamo dinamicamente i due termini di perdita durante l'addestramento e mostriamo che un processo di addestramento a due fasi mescola efficacemente i requisiti di grandi batch del pre-addestramento immagine-lingua con il collo di bottiglia di memoria imposto dall'obiettivo di ricostruzione. Confermiamo l'efficacia di QLIP per la comprensione multimodale e la generazione di immagini condizionate al testo con un unico modello. In particolare, QLIP funge da sostituto plug-and-play per l'encoder visivo per LLaVA e il tokenizzatore di immagini per LlamaGen con prestazioni comparabili o addirittura migliori. Infine, dimostriamo che QLIP consente un modello auto-regressivo misto unificato per la comprensione e la generazione.
English
We introduce Quantized Language-Image Pretraining (QLIP), a visual
tokenization method that combines state-of-the-art reconstruction quality with
state-of-the-art zero-shot image understanding. QLIP trains a
binary-spherical-quantization-based autoencoder with reconstruction and
language-image alignment objectives. We are the first to show that the two
objectives do not need to be at odds. We balance the two loss terms dynamically
during training and show that a two-stage training pipeline effectively mixes
the large-batch requirements of image-language pre-training with the memory
bottleneck imposed by the reconstruction objective. We validate the
effectiveness of QLIP for multimodal understanding and text-conditioned image
generation with a single model. Specifically, QLIP serves as a drop-in
replacement for the visual encoder for LLaVA and the image tokenizer for
LlamaGen with comparable or even better performance. Finally, we demonstrate
that QLIP enables a unified mixed-modality auto-regressive model for
understanding and generation.Summary
AI-Generated Summary