ChatPaper.aiChatPaper

Réglage de la Génération Visuelle

Visual Generation Tuning

November 28, 2025
papers.authors: Jiahao Guo, Sinan Du, Jingfeng Yao, Wenyu Liu, Bo Li, Haoxiang Cao, Kun Gai, Chun Yuan, Kai Wu, Xinggang Wang
cs.AI

papers.abstract

Les grands modèles de vision et langage (VLM) comblent efficacement l'écart de modalité grâce à un pré-entraînement extensif, acquérant des représentations visuelles sophistiquées alignées avec le langage. Cependant, il reste peu exploré si ces représentations, optimisées pour les tâches de compréhension multimodale, recèlent un potentiel inhérent pour la génération visuelle. Dans cet article, nous proposons VGT (Visual Generation Tuning), un nouveau paradigme conçu pour stimuler les capacités sous-jacentes de génération visuelle au sein de tout modèle de vision et langage. En effectuant un réglage efficace de la génération visuelle sur des VLM bien pré-entraînés, nous réduisons significativement les coûts d'alignement et accélérons la convergence de la modélisation autorégressive dans l'espace continu (accélération de 20x). Spécifiquement, nous écartons les VAE au niveau pixel entrelacés conçus pour les transformeurs de diffusion et formulons VGT-AE en alignant les encodeurs sémantiques de VLM pré-entraînés avec les représentations latentes des décodeurs pixel. Dans les tâches de reconstruction d'image, nous atteignons 26,67 PSNR et 0,50 rFID à un taux de compression de 28x, surpassant les VAE spécialisés ; dans les tâches de génération visuelle, nous obtenons des résultats state-of-the-art parmi les modèles autorégressifs, avec 0,77 sur GenEval et 78,73 sur DPG-Bench. De plus, notre VGT proposé démontre un potentiel d'évolutivité significatif et est polyvalent pour doter tout VLM entraîné à la compréhension multimodale de capacités de génération visuelle, ouvrant ainsi une nouvelle voie pour explorer les modèles fondateurs multimodaux unifiés de nouvelle génération. Les modèles et codes sont disponibles à l'adresse https://github.com/hustvl/VGT.
English
Large Vision Language Models (VLMs) effectively bridge the modality gap through extensive pretraining, acquiring sophisticated visual representations aligned with language. However, it remains underexplored whether these representations, optimized for multimodal understanding tasks, harbor an inherent potential for visual generation. In this paper, we propose VGT, Visual Generation Tuning, a novel paradigm designed to stimulate the underlying capabilities of visual generation within any vision language models. By performing efficient visual generation tuning on well-pretrained VLMs, we significantly mitigate the alignment costs and accelerate the convergence of autoregressive modeling in the continuous space (20x speedup). Specifically, we dismiss the entangled pixel-level VAEs designed for diffusion transformers and formulate VGT-AE through aligning the semantic encoders from pretrained VLMs with the latent representations of pixel decoders. In image reconstruction tasks, we achieve 26.67 PSNR and 0.50 rFID at a 28x compression ratio, outperforming specialized VAEs; in visual generation tasks, we achieve state-of-the-art outcomes among autoregressive models, 0.77 on GenEval and 78.73 on DPG-Bench. Furthermore, our proposed VGT showcases significant scaling promise and is versatile for endowing any VLMs trained for multimodal understanding with the capabilities of visual generation, which paves the new avenue to explore next-generation unified multimodal foundation models. Models and codes are available at https://github.com/hustvl/VGT.
PDF111December 10, 2025