Visuelle Generationsoptimierung
Visual Generation Tuning
November 28, 2025
papers.authors: Jiahao Guo, Sinan Du, Jingfeng Yao, Wenyu Liu, Bo Li, Haoxiang Cao, Kun Gai, Chun Yuan, Kai Wu, Xinggang Wang
cs.AI
papers.abstract
Große visuelle Sprachmodelle (VLMs) überbrücken die Modaltitätslücke effektiv durch umfangreiches Vortraining und erwerben dabei anspruchsvolle visuelle Repräsentationen, die mit Sprache abgeglichen sind. Es ist jedoch noch unzureichend erforscht, ob diese für multimodale Verständnisaufgaben optimierten Repräsentationen ein inhärentes Potenzial für visuelle Generierung bergen. In diesem Artikel schlagen wir VGT (Visual Generation Tuning) vor, ein neuartiges Paradigma, das darauf ausgelegt ist, die zugrundeliegenden Fähigkeiten zur visuellen Generierung in beliebigen visuellen Sprachmodellen zu aktivieren. Durch effizientes Visual Generation Tuning an gut vortrainierten VLMs mildern wir die Abgleichkosten erheblich ab und beschleunigen die Konvergenz der autoregressiven Modellierung im kontinuierlichen Raum (20-fache Beschleunigung). Konkret verwerfen wir die für Diffusions-Transformer entworfenen, verschachtelten pixelbasierten VAEs und formulieren VGT-AE durch Abgleich der semantischen Encoder aus vortrainierten VLMs mit den latenten Repräsentationen von Pixel-Decodern. Bei Bildrekonstruktionsaufgaben erreichen wir 26,67 PSNR und 0,50 rFID bei einem 28-fachen Kompressionsverhältnis, was spezialisierte VAEs übertrifft; bei visuellen Generierungsaufgaben erzielen wir state-of-the-art Ergebnisse unter autoregressiven Modellen: 0,77 auf GenEval und 78,73 auf DPG-Bench. Darüber hinaus zeigt unser vorgeschlagenes VGT erhebliches Skalierungspotenzial und ist vielseitig einsetzbar, um beliebige für multimodales Verständnis trainierte VLMs mit visuellen Generierungsfähigkeiten auszustatten, was neue Wege zur Erforschung next-generation einheitlicher multimodaler Foundation Models ebnet. Modelle und Codes sind verfügbar unter https://github.com/hustvl/VGT.
English
Large Vision Language Models (VLMs) effectively bridge the modality gap through extensive pretraining, acquiring sophisticated visual representations aligned with language. However, it remains underexplored whether these representations, optimized for multimodal understanding tasks, harbor an inherent potential for visual generation. In this paper, we propose VGT, Visual Generation Tuning, a novel paradigm designed to stimulate the underlying capabilities of visual generation within any vision language models. By performing efficient visual generation tuning on well-pretrained VLMs, we significantly mitigate the alignment costs and accelerate the convergence of autoregressive modeling in the continuous space (20x speedup). Specifically, we dismiss the entangled pixel-level VAEs designed for diffusion transformers and formulate VGT-AE through aligning the semantic encoders from pretrained VLMs with the latent representations of pixel decoders. In image reconstruction tasks, we achieve 26.67 PSNR and 0.50 rFID at a 28x compression ratio, outperforming specialized VAEs; in visual generation tasks, we achieve state-of-the-art outcomes among autoregressive models, 0.77 on GenEval and 78.73 on DPG-Bench. Furthermore, our proposed VGT showcases significant scaling promise and is versatile for endowing any VLMs trained for multimodal understanding with the capabilities of visual generation, which paves the new avenue to explore next-generation unified multimodal foundation models. Models and codes are available at https://github.com/hustvl/VGT.