Modelo de Difusión Latente sin Autoencoder Variacional
Latent Diffusion Model without Variational Autoencoder
October 17, 2025
Autores: Minglei Shi, Haolin Wang, Wenzhao Zheng, Ziyang Yuan, Xiaoshi Wu, Xintao Wang, Pengfei Wan, Jie Zhou, Jiwen Lu
cs.AI
Resumen
Los avances recientes en la generación visual basada en difusión han dependido en gran medida de modelos de difusión latente con autoencoders variacionales (VAEs). Aunque efectivos para la síntesis de alta fidelidad, este paradigma de VAE+difusión sufre de una eficiencia de entrenamiento limitada, inferencia lenta y una transferibilidad deficiente a tareas de visión más amplias. Estos problemas se derivan de una limitación clave de los espacios latentes de los VAEs: la falta de una separación semántica clara y una estructura discriminativa sólida. Nuestro análisis confirma que estas propiedades son cruciales no solo para tareas de percepción y comprensión, sino también para el entrenamiento estable y eficiente de modelos de difusión latente. Motivados por esta idea, presentamos SVG, un novedoso modelo de difusión latente sin autoencoders variacionales, que aprovecha representaciones auto-supervisadas para la generación visual. SVG construye un espacio de características con una discriminabilidad semántica clara al utilizar características congeladas de DINO, mientras que una rama residual ligera captura detalles finos para una reconstrucción de alta fidelidad. Los modelos de difusión se entrenan directamente en este espacio latente semánticamente estructurado para facilitar un aprendizaje más eficiente. Como resultado, SVG permite un entrenamiento de difusión acelerado, admite muestreo en pocos pasos y mejora la calidad generativa. Los resultados experimentales muestran además que SVG preserva las capacidades semánticas y discriminativas de las representaciones auto-supervisadas subyacentes, proporcionando una vía fundamentada hacia representaciones visuales de alta calidad y aplicables a diversas tareas.
English
Recent progress in diffusion-based visual generation has largely relied on
latent diffusion models with variational autoencoders (VAEs). While effective
for high-fidelity synthesis, this VAE+diffusion paradigm suffers from limited
training efficiency, slow inference, and poor transferability to broader vision
tasks. These issues stem from a key limitation of VAE latent spaces: the lack
of clear semantic separation and strong discriminative structure. Our analysis
confirms that these properties are crucial not only for perception and
understanding tasks, but also for the stable and efficient training of latent
diffusion models. Motivated by this insight, we introduce SVG, a novel latent
diffusion model without variational autoencoders, which leverages
self-supervised representations for visual generation. SVG constructs a feature
space with clear semantic discriminability by leveraging frozen DINO features,
while a lightweight residual branch captures fine-grained details for
high-fidelity reconstruction. Diffusion models are trained directly on this
semantically structured latent space to facilitate more efficient learning. As
a result, SVG enables accelerated diffusion training, supports few-step
sampling, and improves generative quality. Experimental results further show
that SVG preserves the semantic and discriminative capabilities of the
underlying self-supervised representations, providing a principled pathway
toward task-general, high-quality visual representations.