QLIP: Textausgerichtete visuelle Tokenisierung vereint autoregressive multimodale Verständnis und Generierung.
QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation
February 7, 2025
Autoren: Yue Zhao, Fuzhao Xue, Scott Reed, Linxi Fan, Yuke Zhu, Jan Kautz, Zhiding Yu, Philipp Krähenbühl, De-An Huang
cs.AI
Zusammenfassung
Wir stellen Quantized Language-Image Pretraining (QLIP) vor, eine visuelle Tokenisierungsmethode, die modernste Rekonstruktionsqualität mit modernstem Zero-Shot-Bildverständnis kombiniert. QLIP trainiert einen binär-sphärisch-quantisierten Autoencoder mit Rekonstruktions- und Sprachbildausrichtungszielen. Wir sind die ersten, die zeigen, dass die beiden Ziele nicht im Widerspruch stehen müssen. Wir balancieren die beiden Verlustbegriffe dynamisch während des Trainings und zeigen, dass ein zweistufiger Trainingsansatz die Anforderungen an große Batches des Bild-Sprach-Pretrainings effektiv mit dem durch das Rekonstruktionsziel auferlegten Speicherengpass mischt. Wir validieren die Wirksamkeit von QLIP für multimodales Verständnis und textkonditionierte Bildgenerierung mit einem einzigen Modell. Speziell dient QLIP als Plug-and-Play-Ersatz für den visuellen Encoder für LLaVA und den Bild-Tokenizer für LlamaGen mit vergleichbarer oder sogar besserer Leistung. Schließlich zeigen wir, dass QLIP ein vereinheitlichtes gemischt-modalitäts-autoregressives Modell für Verständnis und Generierung ermöglicht.
English
We introduce Quantized Language-Image Pretraining (QLIP), a visual
tokenization method that combines state-of-the-art reconstruction quality with
state-of-the-art zero-shot image understanding. QLIP trains a
binary-spherical-quantization-based autoencoder with reconstruction and
language-image alignment objectives. We are the first to show that the two
objectives do not need to be at odds. We balance the two loss terms dynamically
during training and show that a two-stage training pipeline effectively mixes
the large-batch requirements of image-language pre-training with the memory
bottleneck imposed by the reconstruction objective. We validate the
effectiveness of QLIP for multimodal understanding and text-conditioned image
generation with a single model. Specifically, QLIP serves as a drop-in
replacement for the visual encoder for LLaVA and the image tokenizer for
LlamaGen with comparable or even better performance. Finally, we demonstrate
that QLIP enables a unified mixed-modality auto-regressive model for
understanding and generation.Summary
AI-Generated Summary