QLIP: Tokenização Visual Alinhada ao Texto Unifica a Compreensão e Geração Multimodal Auto-Regressiva

Resumo

Apresentamos o Pré-treinamento de Linguagem-Imagem Quantizada (QLIP), um método de tokenização visual que combina qualidade de reconstrução de ponta com compreensão de imagem sem treinamento. O QLIP treina um autoencoder baseado em quantização binária esférica com objetivos de reconstrução e alinhamento de linguagem-imagem. Somos os primeiros a mostrar que os dois objetivos não precisam ser conflitantes. Equilibramos dinamicamente os dois termos de perda durante o treinamento e demonstramos que um pipeline de treinamento em duas etapas mistura efetivamente os requisitos de lote grande do pré-treinamento de linguagem-imagem com o gargalo de memória imposto pelo objetivo de reconstrução. Validamos a eficácia do QLIP para compreensão multimodal e geração de imagem condicionada por texto com um único modelo. Especificamente, o QLIP serve como substituto direto para o codificador visual do LLaVA e o tokenizador de imagem para LlamaGen com desempenho comparável ou até melhor. Por fim, demonstramos que o QLIP permite um modelo auto-regressivo misto unificado para compreensão e geração.

English

We introduce Quantized Language-Image Pretraining (QLIP), a visual tokenization method that combines state-of-the-art reconstruction quality with state-of-the-art zero-shot image understanding. QLIP trains a binary-spherical-quantization-based autoencoder with reconstruction and language-image alignment objectives. We are the first to show that the two objectives do not need to be at odds. We balance the two loss terms dynamically during training and show that a two-stage training pipeline effectively mixes the large-batch requirements of image-language pre-training with the memory bottleneck imposed by the reconstruction objective. We validate the effectiveness of QLIP for multimodal understanding and text-conditioned image generation with a single model. Specifically, QLIP serves as a drop-in replacement for the visual encoder for LLaVA and the image tokenizer for LlamaGen with comparable or even better performance. Finally, we demonstrate that QLIP enables a unified mixed-modality auto-regressive model for understanding and generation.

QLIP: Tokenização Visual Alinhada ao Texto Unifica a Compreensão e Geração Multimodal Auto-Regressiva

QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation

Resumo

Support