ChatPaper.aiChatPaper

Sintonización de Generación Visual

Visual Generation Tuning

November 28, 2025
Autores: Jiahao Guo, Sinan Du, Jingfeng Yao, Wenyu Liu, Bo Li, Haoxiang Cao, Kun Gai, Chun Yuan, Kai Wu, Xinggang Wang
cs.AI

Resumen

Los Grandes Modelos de Lenguaje y Visión (VLMs) cierran eficazmente la brecha de modalidad mediante un preentrenamiento extensivo, adquiriendo representaciones visuales sofisticadas alineadas con el lenguaje. Sin embargo, sigue siendo poco explorado si estas representaciones, optimizadas para tareas de comprensión multimodal, albergan un potencial inherente para la generación visual. En este artículo, proponemos VGT, Sintonización para Generación Visual, un paradigma novedoso diseñado para estimular las capacidades subyacentes de generación visual dentro de cualquier modelo de lenguaje y visión. Al realizar una sintonización eficiente para generación visual en VLMs bien preentrenados, mitigamos significativamente los costos de alineación y aceleramos la convergencia del modelado autoregresivo en el espacio continuo (20 veces más rápido). Específicamente, descartamos los VAEs a nivel de píxel entrelazados diseñados para transformadores de difusión y formulamos VGT-AE alineando los codificadores semánticos de VLMs preentrenados con las representaciones latentes de los decodificadores de píxeles. En tareas de reconstrucción de imágenes, alcanzamos 26.67 PSNR y 0.50 rFID con una tasa de compresión de 28x, superando a VAEs especializados; en tareas de generación visual, logramos resultados de vanguardia entre los modelos autoregresivos: 0.77 en GenEval y 78.73 en DPG-Bench. Además, nuestro VGT propuesto demuestra un prometedor potencial de escalabilidad y es versátil para dotar a cualquier VLM entrenado para comprensión multimodal con capacidades de generación visual, lo que allana el nuevo camino para explorar modelos fundacionales multimodales unificados de próxima generación. Los modelos y códigos están disponibles en https://github.com/hustvl/VGT.
English
Large Vision Language Models (VLMs) effectively bridge the modality gap through extensive pretraining, acquiring sophisticated visual representations aligned with language. However, it remains underexplored whether these representations, optimized for multimodal understanding tasks, harbor an inherent potential for visual generation. In this paper, we propose VGT, Visual Generation Tuning, a novel paradigm designed to stimulate the underlying capabilities of visual generation within any vision language models. By performing efficient visual generation tuning on well-pretrained VLMs, we significantly mitigate the alignment costs and accelerate the convergence of autoregressive modeling in the continuous space (20x speedup). Specifically, we dismiss the entangled pixel-level VAEs designed for diffusion transformers and formulate VGT-AE through aligning the semantic encoders from pretrained VLMs with the latent representations of pixel decoders. In image reconstruction tasks, we achieve 26.67 PSNR and 0.50 rFID at a 28x compression ratio, outperforming specialized VAEs; in visual generation tasks, we achieve state-of-the-art outcomes among autoregressive models, 0.77 on GenEval and 78.73 on DPG-Bench. Furthermore, our proposed VGT showcases significant scaling promise and is versatile for endowing any VLMs trained for multimodal understanding with the capabilities of visual generation, which paves the new avenue to explore next-generation unified multimodal foundation models. Models and codes are available at https://github.com/hustvl/VGT.
PDF111December 10, 2025