시각 생성 튜닝
Visual Generation Tuning
November 28, 2025
저자: Jiahao Guo, Sinan Du, Jingfeng Yao, Wenyu Liu, Bo Li, Haoxiang Cao, Kun Gai, Chun Yuan, Kai Wu, Xinggang Wang
cs.AI
초록
대규모 시각 언어 모델(VLM)은 방대한 사전 학습을 통해 양식 간 격차를 효과적으로 연결하고 언어와 정렬된 정교한 시각 표현을 습득합니다. 그러나 다중 양식 이해 작업에 최적화된 이러한 표현이 시각 생성에 내재된 잠재력을 지니는지 여부는 아직 충분히 탐구되지 않았습니다. 본 논문에서는 모든 시각 언어 모델 내에 잠재된 시각 생성 능력을 활성화하도록 설계된 새로운 패러다임인 VGT(Visual Generation Tuning)를 제안합니다. 잘 사전 학습된 VLM에 효율적인 시각 생성 튜닝을 수행함으로써, 우리는 정렬 비용을 크게 절감하고 연속 공간에서의 자기회귀 모델링 수렴 속도를 가속화합니다(20배 향상). 구체적으로, 우리는 확산 트랜스포머를 위해 설계된 복잡한 픽셀 수준 VAE를 배제하고, 사전 학습된 VLM의 의미 인코더를 픽셀 디코더의 잠재 표현과 정렬함으로써 VGT-AE를 구성합니다. 이미지 재구성 작업에서 우리는 28배 압축률에서 26.67 PSNR과 0.50 rFID를 달성하여 특화된 VAE를 능가하며, 시각 생성 작업에서는 자기회귀 모델 중 최첨단 성능인 GenEval에서 0.77, DPG-Bench에서 78.73을 달성했습니다. 더 나아가, 우리가 제안한 VGT는 확장 가능성이 뛰어나며 다중 양식 이해를 위해 훈련된 모든 VLM에 시각 생성 능력을 부여하는 데 다양하게 활용될 수 있어, 차세대 통합 다중 양식 기초 모델을 탐구하는 새로운 길을 열어줍니다. 모델과 코드는 https://github.com/hustvl/VGT에서 확인할 수 있습니다.
English
Large Vision Language Models (VLMs) effectively bridge the modality gap through extensive pretraining, acquiring sophisticated visual representations aligned with language. However, it remains underexplored whether these representations, optimized for multimodal understanding tasks, harbor an inherent potential for visual generation. In this paper, we propose VGT, Visual Generation Tuning, a novel paradigm designed to stimulate the underlying capabilities of visual generation within any vision language models. By performing efficient visual generation tuning on well-pretrained VLMs, we significantly mitigate the alignment costs and accelerate the convergence of autoregressive modeling in the continuous space (20x speedup). Specifically, we dismiss the entangled pixel-level VAEs designed for diffusion transformers and formulate VGT-AE through aligning the semantic encoders from pretrained VLMs with the latent representations of pixel decoders. In image reconstruction tasks, we achieve 26.67 PSNR and 0.50 rFID at a 28x compression ratio, outperforming specialized VAEs; in visual generation tasks, we achieve state-of-the-art outcomes among autoregressive models, 0.77 on GenEval and 78.73 on DPG-Bench. Furthermore, our proposed VGT showcases significant scaling promise and is versatile for endowing any VLMs trained for multimodal understanding with the capabilities of visual generation, which paves the new avenue to explore next-generation unified multimodal foundation models. Models and codes are available at https://github.com/hustvl/VGT.