視覚生成チューニング
Visual Generation Tuning
November 28, 2025
著者: Jiahao Guo, Sinan Du, Jingfeng Yao, Wenyu Liu, Bo Li, Haoxiang Cao, Kun Gai, Chun Yuan, Kai Wu, Xinggang Wang
cs.AI
要旨
大規模視覚言語モデル(VLM)は、大規模な事前学習を通じてモダリティ間のギャップを効果的に橋渡しし、言語と整合した高度な視覚表現を獲得する。しかし、マルチモーダル理解タスク向けに最適化されたこれらの表現が、視覚生成の内在的潜在能力を秘めているかどうかは未解明のままである。本論文では、任意の視覚言語モデル内に潜む視覚生成能力を喚起する新しいパラダイム「VGT(Visual Generation Tuning)」を提案する。十分に事前学習されたVLMに対して効率的な視覚生成チューニングを実施することで、アライメントコストを大幅に軽減し、連続空間における自己回帰モデリングの収束を加速させる(20倍の高速化)。具体的には、拡散Transformer向けに設計された複雑なピクセルレベルのVAEを排除し、事前学習済みVLMの意味エンコーダとピクセルデコーダの潜在表現を整合させることでVGT-AEを構築する。画像再構成タスクでは28倍の圧縮率でPSNR 26.67、rFID 0.50を達成し、専門的なVAEを上回る性能を示す。視覚生成タスクでは、自己回帰モデルの中で最先端の結果(GenEvalで0.77、DPG-Benchで78.73)を達成する。さらに、提案するVGTは顕著なスケーリング可能性を示し、マルチモーダル理解向けに訓練された任意のVLMに視覚生成能力を付与する汎用性を有する。これは次世代統合マルチモーダル基盤モデル探索への新たな道筋を拓くものである。モデルとコードはhttps://github.com/hustvl/VGT で公開されている。
English
Large Vision Language Models (VLMs) effectively bridge the modality gap through extensive pretraining, acquiring sophisticated visual representations aligned with language. However, it remains underexplored whether these representations, optimized for multimodal understanding tasks, harbor an inherent potential for visual generation. In this paper, we propose VGT, Visual Generation Tuning, a novel paradigm designed to stimulate the underlying capabilities of visual generation within any vision language models. By performing efficient visual generation tuning on well-pretrained VLMs, we significantly mitigate the alignment costs and accelerate the convergence of autoregressive modeling in the continuous space (20x speedup). Specifically, we dismiss the entangled pixel-level VAEs designed for diffusion transformers and formulate VGT-AE through aligning the semantic encoders from pretrained VLMs with the latent representations of pixel decoders. In image reconstruction tasks, we achieve 26.67 PSNR and 0.50 rFID at a 28x compression ratio, outperforming specialized VAEs; in visual generation tasks, we achieve state-of-the-art outcomes among autoregressive models, 0.77 on GenEval and 78.73 on DPG-Bench. Furthermore, our proposed VGT showcases significant scaling promise and is versatile for endowing any VLMs trained for multimodal understanding with the capabilities of visual generation, which paves the new avenue to explore next-generation unified multimodal foundation models. Models and codes are available at https://github.com/hustvl/VGT.