QLIP: Textausgerichtete visuelle Tokenisierung vereint autoregressive multimodale Verständnis und Generierung.

papers.abstract

Wir stellen Quantized Language-Image Pretraining (QLIP) vor, eine visuelle Tokenisierungsmethode, die modernste Rekonstruktionsqualität mit modernstem Zero-Shot-Bildverständnis kombiniert. QLIP trainiert einen binär-sphärisch-quantisierten Autoencoder mit Rekonstruktions- und Sprachbildausrichtungszielen. Wir sind die ersten, die zeigen, dass die beiden Ziele nicht im Widerspruch stehen müssen. Wir balancieren die beiden Verlustbegriffe dynamisch während des Trainings und zeigen, dass ein zweistufiger Trainingsansatz die Anforderungen an große Batches des Bild-Sprach-Pretrainings effektiv mit dem durch das Rekonstruktionsziel auferlegten Speicherengpass mischt. Wir validieren die Wirksamkeit von QLIP für multimodales Verständnis und textkonditionierte Bildgenerierung mit einem einzigen Modell. Speziell dient QLIP als Plug-and-Play-Ersatz für den visuellen Encoder für LLaVA und den Bild-Tokenizer für LlamaGen mit vergleichbarer oder sogar besserer Leistung. Schließlich zeigen wir, dass QLIP ein vereinheitlichtes gemischt-modalitäts-autoregressives Modell für Verständnis und Generierung ermöglicht.

English

We introduce Quantized Language-Image Pretraining (QLIP), a visual tokenization method that combines state-of-the-art reconstruction quality with state-of-the-art zero-shot image understanding. QLIP trains a binary-spherical-quantization-based autoencoder with reconstruction and language-image alignment objectives. We are the first to show that the two objectives do not need to be at odds. We balance the two loss terms dynamically during training and show that a two-stage training pipeline effectively mixes the large-batch requirements of image-language pre-training with the memory bottleneck imposed by the reconstruction objective. We validate the effectiveness of QLIP for multimodal understanding and text-conditioned image generation with a single model. Specifically, QLIP serves as a drop-in replacement for the visual encoder for LLaVA and the image tokenizer for LlamaGen with comparable or even better performance. Finally, we demonstrate that QLIP enables a unified mixed-modality auto-regressive model for understanding and generation.

QLIP: Textausgerichtete visuelle Tokenisierung vereint autoregressive multimodale Verständnis und Generierung.

QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation

papers.abstract

Support