Настройка визуальной генерации
Visual Generation Tuning
November 28, 2025
Авторы: Jiahao Guo, Sinan Du, Jingfeng Yao, Wenyu Liu, Bo Li, Haoxiang Cao, Kun Gai, Chun Yuan, Kai Wu, Xinggang Wang
cs.AI
Аннотация
Крупные языковые модели с поддержкой визуального восприятия (VLMs) эффективно преодолевают модальный разрыв благодаря масштабному предварительному обучению, приобретая сложные визуальные представления, согласованные с языком. Однако остается малоизученным вопрос о том, обладают ли эти представления, оптимизированные для задач мультимодального понимания, внутренним потенциалом для визуальной генерации. В данной статье мы предлагаем VGT (Visual Generation Tuning) — новую парадигму, предназначенную для активации скрытых возможностей визуальной генерации в любых языковых моделях с поддержкой визуального восприятия. Путем эффективной настройки визуальной генерации в хорошо предобученных VLMs мы существенно снижаем затраты на согласование и ускоряем сходимость авторегрессионного моделирования в непрерывном пространстве (в 20 раз). В частности, мы отказываемся от запутанных VAEs на уровне пикселей, разработанных для диффузионных трансформеров, и формулируем VGT-AE через согласование семантических энкодеров из предобученных VLMs с латентными представлениями пиксельных декодеров. В задачах реконструкции изображений мы достигаем показателей 26.67 PSNR и 0.50 rFID при степени сжатия 28x, превосходя специализированные VAEs; в задачах визуальной генерации мы достигаем наилучших результатов среди авторегрессионных моделей — 0.77 на GenEval и 78.73 на DPG-Bench. Кроме того, предложенный нами VGT демонстрирует значительный потенциал масштабирования и универсальность для наделения любых VLMs, обученных для мультимодального понимания, возможностями визуальной генерации, что открывает новые пути для исследования моделей следующего поколения — унифицированных мультимодальных фундаментальных моделей. Модели и код доступны по адресу https://github.com/hustvl/VGT.
English
Large Vision Language Models (VLMs) effectively bridge the modality gap through extensive pretraining, acquiring sophisticated visual representations aligned with language. However, it remains underexplored whether these representations, optimized for multimodal understanding tasks, harbor an inherent potential for visual generation. In this paper, we propose VGT, Visual Generation Tuning, a novel paradigm designed to stimulate the underlying capabilities of visual generation within any vision language models. By performing efficient visual generation tuning on well-pretrained VLMs, we significantly mitigate the alignment costs and accelerate the convergence of autoregressive modeling in the continuous space (20x speedup). Specifically, we dismiss the entangled pixel-level VAEs designed for diffusion transformers and formulate VGT-AE through aligning the semantic encoders from pretrained VLMs with the latent representations of pixel decoders. In image reconstruction tasks, we achieve 26.67 PSNR and 0.50 rFID at a 28x compression ratio, outperforming specialized VAEs; in visual generation tasks, we achieve state-of-the-art outcomes among autoregressive models, 0.77 on GenEval and 78.73 on DPG-Bench. Furthermore, our proposed VGT showcases significant scaling promise and is versatile for endowing any VLMs trained for multimodal understanding with the capabilities of visual generation, which paves the new avenue to explore next-generation unified multimodal foundation models. Models and codes are available at https://github.com/hustvl/VGT.