QLIP: Tekst-Gealigneerde Visuele Tokenisatie Verenigt Auto-Regressieve Multimodale Begrip en Generatie
QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation
February 7, 2025
Auteurs: Yue Zhao, Fuzhao Xue, Scott Reed, Linxi Fan, Yuke Zhu, Jan Kautz, Zhiding Yu, Philipp Krähenbühl, De-An Huang
cs.AI
Samenvatting
We introduceren Quantized Language-Image Pretraining (QLIP), een visuele tokenisatiemethode die state-of-the-art reconstructiekwaliteit combineert met state-of-the-art begrip van afbeeldingen zonder voorafgaande training. QLIP traint een binair-sferische-gekwantiseerde auto-encoder met reconstructie- en taal-afbeelding aligneringsdoelstellingen. Wij zijn de eersten die aantonen dat de twee doelstellingen niet tegenstrijdig hoeven te zijn. We balanceren de twee verliesfuncties dynamisch tijdens de training en tonen aan dat een tweefasige trainingspijplijn effectief de grote-batchvereisten van voorafgaande training van afbeeldingen en taal mixt met de geheugenbottleneck die wordt opgelegd door de reconstructiedoelstelling. We valideren de effectiviteit van QLIP voor multimodaal begrip en tekst-geconditioneerde beeldgeneratie met een enkel model. Specifiek dient QLIP als een plug-and-play vervanging voor de visuele encoder voor LLaVA en de beeldtokenizer voor LlamaGen met vergelijkbare of zelfs betere prestaties. Ten slotte tonen we aan dat QLIP een verenigd gemengd-modaliteitsauto-regressief model mogelijk maakt voor begrip en generatie.
English
We introduce Quantized Language-Image Pretraining (QLIP), a visual
tokenization method that combines state-of-the-art reconstruction quality with
state-of-the-art zero-shot image understanding. QLIP trains a
binary-spherical-quantization-based autoencoder with reconstruction and
language-image alignment objectives. We are the first to show that the two
objectives do not need to be at odds. We balance the two loss terms dynamically
during training and show that a two-stage training pipeline effectively mixes
the large-batch requirements of image-language pre-training with the memory
bottleneck imposed by the reconstruction objective. We validate the
effectiveness of QLIP for multimodal understanding and text-conditioned image
generation with a single model. Specifically, QLIP serves as a drop-in
replacement for the visual encoder for LLaVA and the image tokenizer for
LlamaGen with comparable or even better performance. Finally, we demonstrate
that QLIP enables a unified mixed-modality auto-regressive model for
understanding and generation.Summary
AI-Generated Summary