QLIP: Выравнивание текста и визуальная токенизация объединяют авторегрессивное мультимодальное понимание и генерацию.
QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation
February 7, 2025
Авторы: Yue Zhao, Fuzhao Xue, Scott Reed, Linxi Fan, Yuke Zhu, Jan Kautz, Zhiding Yu, Philipp Krähenbühl, De-An Huang
cs.AI
Аннотация
Мы представляем Quantized Language-Image Pretraining (QLIP), метод визуальной токенизации, который сочетает качество восстановления современного уровня с пониманием изображений без обучения. QLIP обучает автоэнкодер на основе бинарной сферической квантизации с целями восстановления и выравнивания язык-изображение. Мы первые показываем, что эти две цели не должны противоречить друг другу. Мы динамически балансируем два термина потерь во время обучения и показываем, что двухэтапное обучение эффективно сочетает требования к большим пакетам предварительного обучения изображений и узкое место памяти, накладываемое целью восстановления. Мы подтверждаем эффективность QLIP для мультимодального понимания и генерации изображений под управлением текста с использованием одной модели. В частности, QLIP служит заменой визуального кодера для LLaVA и токенизатора изображений для LlamaGen с сопоставимой или даже лучшей производительностью. Наконец, мы демонстрируем, что QLIP позволяет создать объединенную авторегрессионную модель смешанной модальности для понимания и генерации.
English
We introduce Quantized Language-Image Pretraining (QLIP), a visual
tokenization method that combines state-of-the-art reconstruction quality with
state-of-the-art zero-shot image understanding. QLIP trains a
binary-spherical-quantization-based autoencoder with reconstruction and
language-image alignment objectives. We are the first to show that the two
objectives do not need to be at odds. We balance the two loss terms dynamically
during training and show that a two-stage training pipeline effectively mixes
the large-batch requirements of image-language pre-training with the memory
bottleneck imposed by the reconstruction objective. We validate the
effectiveness of QLIP for multimodal understanding and text-conditioned image
generation with a single model. Specifically, QLIP serves as a drop-in
replacement for the visual encoder for LLaVA and the image tokenizer for
LlamaGen with comparable or even better performance. Finally, we demonstrate
that QLIP enables a unified mixed-modality auto-regressive model for
understanding and generation.Summary
AI-Generated Summary