QLIP: Tokenização Visual Alinhada ao Texto Unifica a Compreensão e Geração Multimodal Auto-Regressiva
QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation
February 7, 2025
Autores: Yue Zhao, Fuzhao Xue, Scott Reed, Linxi Fan, Yuke Zhu, Jan Kautz, Zhiding Yu, Philipp Krähenbühl, De-An Huang
cs.AI
Resumo
Apresentamos o Pré-treinamento de Linguagem-Imagem Quantizada (QLIP), um método de tokenização visual que combina qualidade de reconstrução de ponta com compreensão de imagem sem treinamento. O QLIP treina um autoencoder baseado em quantização binária esférica com objetivos de reconstrução e alinhamento de linguagem-imagem. Somos os primeiros a mostrar que os dois objetivos não precisam ser conflitantes. Equilibramos dinamicamente os dois termos de perda durante o treinamento e demonstramos que um pipeline de treinamento em duas etapas mistura efetivamente os requisitos de lote grande do pré-treinamento de linguagem-imagem com o gargalo de memória imposto pelo objetivo de reconstrução. Validamos a eficácia do QLIP para compreensão multimodal e geração de imagem condicionada por texto com um único modelo. Especificamente, o QLIP serve como substituto direto para o codificador visual do LLaVA e o tokenizador de imagem para LlamaGen com desempenho comparável ou até melhor. Por fim, demonstramos que o QLIP permite um modelo auto-regressivo misto unificado para compreensão e geração.
English
We introduce Quantized Language-Image Pretraining (QLIP), a visual
tokenization method that combines state-of-the-art reconstruction quality with
state-of-the-art zero-shot image understanding. QLIP trains a
binary-spherical-quantization-based autoencoder with reconstruction and
language-image alignment objectives. We are the first to show that the two
objectives do not need to be at odds. We balance the two loss terms dynamically
during training and show that a two-stage training pipeline effectively mixes
the large-batch requirements of image-language pre-training with the memory
bottleneck imposed by the reconstruction objective. We validate the
effectiveness of QLIP for multimodal understanding and text-conditioned image
generation with a single model. Specifically, QLIP serves as a drop-in
replacement for the visual encoder for LLaVA and the image tokenizer for
LlamaGen with comparable or even better performance. Finally, we demonstrate
that QLIP enables a unified mixed-modality auto-regressive model for
understanding and generation.Summary
AI-Generated Summary