Modelo de Difusão Latente sem Autoencoder Variacional
Latent Diffusion Model without Variational Autoencoder
October 17, 2025
Autores: Minglei Shi, Haolin Wang, Wenzhao Zheng, Ziyang Yuan, Xiaoshi Wu, Xintao Wang, Pengfei Wan, Jie Zhou, Jiwen Lu
cs.AI
Resumo
Os avanços recentes na geração visual baseada em difusão têm dependido amplamente de modelos de difusão latente com autoencoders variacionais (VAEs). Embora eficazes para síntese de alta fidelidade, esse paradigma VAE+difusão sofre com eficiência limitada de treinamento, inferência lenta e baixa transferibilidade para tarefas de visão mais amplas. Esses problemas decorrem de uma limitação fundamental dos espaços latentes de VAEs: a falta de separação semântica clara e estrutura discriminativa robusta. Nossa análise confirma que essas propriedades são cruciais não apenas para tarefas de percepção e compreensão, mas também para o treinamento estável e eficiente de modelos de difusão latente. Motivados por essa percepção, introduzimos o SVG, um novo modelo de difusão latente sem autoencoders variacionais, que utiliza representações auto-supervisionadas para geração visual. O SVG constrói um espaço de características com discriminabilidade semântica clara ao aproveitar características congeladas do DINO, enquanto um ramo residual leve captura detalhes refinados para reconstrução de alta fidelidade. Modelos de difusão são treinados diretamente nesse espaço latente semanticamente estruturado para facilitar um aprendizado mais eficiente. Como resultado, o SVG permite treinamento acelerado de difusão, suporta amostragem com poucos passos e melhora a qualidade gerativa. Resultados experimentais mostram ainda que o SVG preserva as capacidades semânticas e discriminativas das representações auto-supervisionadas subjacentes, oferecendo um caminho fundamentado para representações visuais de alta qualidade e aplicáveis a diversas tarefas.
English
Recent progress in diffusion-based visual generation has largely relied on
latent diffusion models with variational autoencoders (VAEs). While effective
for high-fidelity synthesis, this VAE+diffusion paradigm suffers from limited
training efficiency, slow inference, and poor transferability to broader vision
tasks. These issues stem from a key limitation of VAE latent spaces: the lack
of clear semantic separation and strong discriminative structure. Our analysis
confirms that these properties are crucial not only for perception and
understanding tasks, but also for the stable and efficient training of latent
diffusion models. Motivated by this insight, we introduce SVG, a novel latent
diffusion model without variational autoencoders, which leverages
self-supervised representations for visual generation. SVG constructs a feature
space with clear semantic discriminability by leveraging frozen DINO features,
while a lightweight residual branch captures fine-grained details for
high-fidelity reconstruction. Diffusion models are trained directly on this
semantically structured latent space to facilitate more efficient learning. As
a result, SVG enables accelerated diffusion training, supports few-step
sampling, and improves generative quality. Experimental results further show
that SVG preserves the semantic and discriminative capabilities of the
underlying self-supervised representations, providing a principled pathway
toward task-general, high-quality visual representations.