Латентная диффузионная модель без вариационного автоэнкодера
Latent Diffusion Model without Variational Autoencoder
October 17, 2025
Авторы: Minglei Shi, Haolin Wang, Wenzhao Zheng, Ziyang Yuan, Xiaoshi Wu, Xintao Wang, Pengfei Wan, Jie Zhou, Jiwen Lu
cs.AI
Аннотация
Недавние успехи в визуальной генерации на основе диффузии во многом опирались на латентные диффузионные модели с вариационными автоэнкодерами (VAE). Хотя этот подход эффективен для синтеза с высокой точностью, парадигма VAE+диффузия страдает от ограниченной эффективности обучения, медленного вывода и плохой переносимости на более широкий спектр задач компьютерного зрения. Эти проблемы связаны с ключевым ограничением латентных пространств VAE: отсутствием четкого семантического разделения и сильной дискриминативной структуры. Наш анализ подтверждает, что эти свойства важны не только для задач восприятия и понимания, но и для стабильного и эффективного обучения латентных диффузионных моделей. Вдохновленные этим пониманием, мы представляем SVG — новую латентную диффузионную модель без вариационных автоэнкодеров, которая использует самоконтролируемые представления для визуальной генерации. SVG создает пространство признаков с четкой семантической различимостью, используя замороженные признаки DINO, в то время как легковесная остаточная ветвь захватывает мелкозернистые детали для высокоточного восстановления. Диффузионные модели обучаются непосредственно на этом семантически структурированном латентном пространстве, что способствует более эффективному обучению. В результате SVG позволяет ускорить обучение диффузии, поддерживает выборку за несколько шагов и улучшает качество генерации. Экспериментальные результаты также показывают, что SVG сохраняет семантические и дискриминативные возможности базовых самоконтролируемых представлений, предоставляя принципиальный путь к универсальным и высококачественным визуальным представлениям.
English
Recent progress in diffusion-based visual generation has largely relied on
latent diffusion models with variational autoencoders (VAEs). While effective
for high-fidelity synthesis, this VAE+diffusion paradigm suffers from limited
training efficiency, slow inference, and poor transferability to broader vision
tasks. These issues stem from a key limitation of VAE latent spaces: the lack
of clear semantic separation and strong discriminative structure. Our analysis
confirms that these properties are crucial not only for perception and
understanding tasks, but also for the stable and efficient training of latent
diffusion models. Motivated by this insight, we introduce SVG, a novel latent
diffusion model without variational autoencoders, which leverages
self-supervised representations for visual generation. SVG constructs a feature
space with clear semantic discriminability by leveraging frozen DINO features,
while a lightweight residual branch captures fine-grained details for
high-fidelity reconstruction. Diffusion models are trained directly on this
semantically structured latent space to facilitate more efficient learning. As
a result, SVG enables accelerated diffusion training, supports few-step
sampling, and improves generative quality. Experimental results further show
that SVG preserves the semantic and discriminative capabilities of the
underlying self-supervised representations, providing a principled pathway
toward task-general, high-quality visual representations.