Sintonização de Geração Visual

Resumo

Os Grandes Modelos de Visão e Linguagem (VLMs) superam eficazmente a lacuna de modalidade através de um pré-treinamento extensivo, adquirindo representações visuais sofisticadas alinhadas com a linguagem. No entanto, permanece pouco explorado se estas representações, otimizadas para tarefas de compreensão multimodal, possuem um potencial inerente para geração visual. Neste artigo, propomos o VGT, Sintonização para Geração Visual, um novo paradigma concebido para estimular as capacidades subjacentes de geração visual em qualquer modelo de visão e linguagem. Ao realizar uma sintonização eficiente para geração visual em VLMs bem pré-treinados, mitigamos significativamente os custos de alinhamento e aceleramos a convergência da modelagem autoregressiva no espaço contínuo (aceleração de 20x). Especificamente, dispensamos os VAEs (Autoencoders Variacionais) de nível de pixel entrelaçados, concebidos para transformers de difusão, e formulamos o VGT-AE através do alinhamento dos codificadores semânticos de VLMs pré-treinados com as representações latentes dos descodificadores de pixel. Em tarefas de reconstrução de imagem, alcançamos 26.67 PSNR e 0.50 rFID a uma taxa de compressão de 28x, superando VAEs especializados; em tarefas de geração visual, alcançamos resultados de última geração entre os modelos autoregressivos, 0.77 no GenEval e 78.73 no DPG-Bench. Adicionalmente, o nosso VGT proposto demonstra um potencial significativo de escalabilidade e é versátil para dotar qualquer VLM treinado para compreensão multimodal com capacidades de geração visual, o que abre um novo caminho para explorar modelos de fundação multimodais unificados de próxima geração. Modelos e código estão disponíveis em https://github.com/hustvl/VGT.

English

Large Vision Language Models (VLMs) effectively bridge the modality gap through extensive pretraining, acquiring sophisticated visual representations aligned with language. However, it remains underexplored whether these representations, optimized for multimodal understanding tasks, harbor an inherent potential for visual generation. In this paper, we propose VGT, Visual Generation Tuning, a novel paradigm designed to stimulate the underlying capabilities of visual generation within any vision language models. By performing efficient visual generation tuning on well-pretrained VLMs, we significantly mitigate the alignment costs and accelerate the convergence of autoregressive modeling in the continuous space (20x speedup). Specifically, we dismiss the entangled pixel-level VAEs designed for diffusion transformers and formulate VGT-AE through aligning the semantic encoders from pretrained VLMs with the latent representations of pixel decoders. In image reconstruction tasks, we achieve 26.67 PSNR and 0.50 rFID at a 28x compression ratio, outperforming specialized VAEs; in visual generation tasks, we achieve state-of-the-art outcomes among autoregressive models, 0.77 on GenEval and 78.73 on DPG-Bench. Furthermore, our proposed VGT showcases significant scaling promise and is versatile for endowing any VLMs trained for multimodal understanding with the capabilities of visual generation, which paves the new avenue to explore next-generation unified multimodal foundation models. Models and codes are available at https://github.com/hustvl/VGT.