ChatPaper.aiChatPaper

Visuele Generatie Afstemming

Visual Generation Tuning

November 28, 2025
Auteurs: Jiahao Guo, Sinan Du, Jingfeng Yao, Wenyu Liu, Bo Li, Haoxiang Cao, Kun Gai, Chun Yuan, Kai Wu, Xinggang Wang
cs.AI

Samenvatting

Grote Vision-Language Modellen (VLMs) overbruggen de modaliteitskloof effectief door middel van uitgebreide voorafgaande training, waarbij ze geavanceerde visuele representaties verwerven die zijn afgestemd op taal. Het blijft echter onvoldoende onderzocht of deze representaties, die zijn geoptimaliseerd voor multimodale begripstaken, een inherent potentieel voor visuele generatie herbergen. In dit artikel stellen we VGT voor, Visual Generation Tuning, een nieuw paradigma ontworpen om de onderliggende mogelijkheden voor visuele generatie in willekeurige vision-language modellen te stimuleren. Door efficiënte visuele generatietuning uit te voeren op goed voorgetrainde VLMs, verminderen we de afstemmingskosten aanzienlijk en versnellen we de convergentie van autoregressieve modellering in de continue ruimte (20x versnelling). Specifiek negeren we de verstrengelde pixelgebaseerde VAEs die zijn ontworpen voor diffusion transformers en formuleren we VGT-AE door de semantische encoders van voorgetrainde VLMs af te stemmen op de latente representaties van pixeldecoders. Bij beeldreconstructietaken behalen we 26.67 PSNR en 0.50 rFID bij een compressieverhouding van 28x, wat gespecialiseerde VAEs overtreft; bij visuele generatietaken behalen we state-of-the-art resultaten onder autoregressieve modellen, 0.77 op GenEval en 78.73 op DPG-Bench. Bovendien toont onze voorgestelde VGT aanzienlijke schaalbaarheidsbelofte en is veelzijdig in het toekennen van visuele generatiemogelijkheden aan willekeurige VLMs die zijn getraind voor multimodaal begrip, wat een nieuw pad opent voor de verkenning van next-generation verenigde multimodale foundation-modellen. Modellen en code zijn beschikbaar op https://github.com/hustvl/VGT.
English
Large Vision Language Models (VLMs) effectively bridge the modality gap through extensive pretraining, acquiring sophisticated visual representations aligned with language. However, it remains underexplored whether these representations, optimized for multimodal understanding tasks, harbor an inherent potential for visual generation. In this paper, we propose VGT, Visual Generation Tuning, a novel paradigm designed to stimulate the underlying capabilities of visual generation within any vision language models. By performing efficient visual generation tuning on well-pretrained VLMs, we significantly mitigate the alignment costs and accelerate the convergence of autoregressive modeling in the continuous space (20x speedup). Specifically, we dismiss the entangled pixel-level VAEs designed for diffusion transformers and formulate VGT-AE through aligning the semantic encoders from pretrained VLMs with the latent representations of pixel decoders. In image reconstruction tasks, we achieve 26.67 PSNR and 0.50 rFID at a 28x compression ratio, outperforming specialized VAEs; in visual generation tasks, we achieve state-of-the-art outcomes among autoregressive models, 0.77 on GenEval and 78.73 on DPG-Bench. Furthermore, our proposed VGT showcases significant scaling promise and is versatile for endowing any VLMs trained for multimodal understanding with the capabilities of visual generation, which paves the new avenue to explore next-generation unified multimodal foundation models. Models and codes are available at https://github.com/hustvl/VGT.
PDF111December 10, 2025