Regolazione della Generazione Visiva
Visual Generation Tuning
November 28, 2025
Autori: Jiahao Guo, Sinan Du, Jingfeng Yao, Wenyu Liu, Bo Li, Haoxiang Cao, Kun Gai, Chun Yuan, Kai Wu, Xinggang Wang
cs.AI
Abstract
I grandi modelli linguistici visivi (VLM) colmano efficacemente il divario modale attraverso un pre-addestramento estensivo, acquisendo rappresentazioni visive sofisticate allineate con il linguaggio. Tuttavia, rimane poco esplorato se queste rappresentazioni, ottimizzate per compiti di comprensione multimodale, custodiscano un potenziale intrinseco per la generazione visiva. In questo articolo, proponiamo VGT, Visual Generation Tuning, un paradigma innovativo progettato per stimolare le capacità sottostanti di generazione visiva all'interno di qualsiasi modello linguistico visivo. Eseguendo un efficiente tuning per la generazione visiva su VLM pre-addestrati, mitigiamo significativamente i costi di allineamento e acceleriamo la convergenza della modellazione autoregressiva nello spazio continuo (accelerazione di 20x). Nello specifico, accantoniamo i VAE a livello di pixel progettati per i transformer diffusivi e formuliamo VGT-AE allineando gli encoder semantici dei VLM pre-addestrati con le rappresentazioni latenti dei decoder di pixel. In compiti di ricostruzione d'immagine, raggiungiamo 26.67 PSNR e 0.50 rFID con un rapporto di compressione 28x, superando VAE specializzati; in compiti di generazione visiva, otteniamo risultati all'avanguardia tra i modelli autoregressivi: 0.77 su GenEval e 78.73 su DPG-Bench. Inoltre, il nostro VGT dimostra un significativo potenziale di scalabilità e versatilità nel conferire a qualsiasi VLM addestrato per la comprensione multimodale le capacità di generazione visiva, aprendo una nuova strada per esplorare modelli fondazionali multimodali unificati di prossima generazione. Modelli e codice sono disponibili su https://github.com/hustvl/VGT.
English
Large Vision Language Models (VLMs) effectively bridge the modality gap through extensive pretraining, acquiring sophisticated visual representations aligned with language. However, it remains underexplored whether these representations, optimized for multimodal understanding tasks, harbor an inherent potential for visual generation. In this paper, we propose VGT, Visual Generation Tuning, a novel paradigm designed to stimulate the underlying capabilities of visual generation within any vision language models. By performing efficient visual generation tuning on well-pretrained VLMs, we significantly mitigate the alignment costs and accelerate the convergence of autoregressive modeling in the continuous space (20x speedup). Specifically, we dismiss the entangled pixel-level VAEs designed for diffusion transformers and formulate VGT-AE through aligning the semantic encoders from pretrained VLMs with the latent representations of pixel decoders. In image reconstruction tasks, we achieve 26.67 PSNR and 0.50 rFID at a 28x compression ratio, outperforming specialized VAEs; in visual generation tasks, we achieve state-of-the-art outcomes among autoregressive models, 0.77 on GenEval and 78.73 on DPG-Bench. Furthermore, our proposed VGT showcases significant scaling promise and is versatile for endowing any VLMs trained for multimodal understanding with the capabilities of visual generation, which paves the new avenue to explore next-generation unified multimodal foundation models. Models and codes are available at https://github.com/hustvl/VGT.