Modello di Diffusione Latente senza Autoencoder Variazionale
Latent Diffusion Model without Variational Autoencoder
October 17, 2025
Autori: Minglei Shi, Haolin Wang, Wenzhao Zheng, Ziyang Yuan, Xiaoshi Wu, Xintao Wang, Pengfei Wan, Jie Zhou, Jiwen Lu
cs.AI
Abstract
I recenti progressi nella generazione visiva basata su diffusione si sono principalmente basati su modelli di diffusione latente con autoencoder variazionali (VAE). Sebbene efficaci per la sintesi ad alta fedeltà, questo paradigma VAE+diffusione soffre di una limitata efficienza di addestramento, inferenza lenta e scarsa trasferibilità a compiti visivi più ampi. Questi problemi derivano da una limitazione chiave degli spazi latenti dei VAE: la mancanza di una chiara separazione semantica e di una struttura discriminativa forte. La nostra analisi conferma che queste proprietà sono cruciali non solo per i compiti di percezione e comprensione, ma anche per l'addestramento stabile ed efficiente dei modelli di diffusione latente. Motivati da questa intuizione, introduciamo SVG, un nuovo modello di diffusione latente senza autoencoder variazionali, che sfrutta rappresentazioni auto-supervisionate per la generazione visiva. SVG costruisce uno spazio di caratteristiche con una chiara discriminabilità semantica sfruttando le caratteristiche congelate di DINO, mentre un ramo residuo leggero cattura i dettagli fini per una ricostruzione ad alta fedeltà. I modelli di diffusione vengono addestrati direttamente su questo spazio latente strutturato semanticamente per facilitare un apprendimento più efficiente. Di conseguenza, SVG consente un addestramento accelerato della diffusione, supporta il campionamento in pochi passi e migliora la qualità generativa. I risultati sperimentali mostrano inoltre che SVG preserva le capacità semantiche e discriminative delle rappresentazioni auto-supervisionate sottostanti, fornendo un percorso strutturato verso rappresentazioni visive di alta qualità e generalizzabili a diversi compiti.
English
Recent progress in diffusion-based visual generation has largely relied on
latent diffusion models with variational autoencoders (VAEs). While effective
for high-fidelity synthesis, this VAE+diffusion paradigm suffers from limited
training efficiency, slow inference, and poor transferability to broader vision
tasks. These issues stem from a key limitation of VAE latent spaces: the lack
of clear semantic separation and strong discriminative structure. Our analysis
confirms that these properties are crucial not only for perception and
understanding tasks, but also for the stable and efficient training of latent
diffusion models. Motivated by this insight, we introduce SVG, a novel latent
diffusion model without variational autoencoders, which leverages
self-supervised representations for visual generation. SVG constructs a feature
space with clear semantic discriminability by leveraging frozen DINO features,
while a lightweight residual branch captures fine-grained details for
high-fidelity reconstruction. Diffusion models are trained directly on this
semantically structured latent space to facilitate more efficient learning. As
a result, SVG enables accelerated diffusion training, supports few-step
sampling, and improves generative quality. Experimental results further show
that SVG preserves the semantic and discriminative capabilities of the
underlying self-supervised representations, providing a principled pathway
toward task-general, high-quality visual representations.