변분 오토인코더가 없는 잠재 확산 모델
Latent Diffusion Model without Variational Autoencoder
October 17, 2025
저자: Minglei Shi, Haolin Wang, Wenzhao Zheng, Ziyang Yuan, Xiaoshi Wu, Xintao Wang, Pengfei Wan, Jie Zhou, Jiwen Lu
cs.AI
초록
최근 확산 기반 시각 생성 연구는 주로 변분 오토인코더(VAE)와 결합된 잠재 확산 모델에 의존해 왔습니다. 고품질 합성에는 효과적이지만, 이러한 VAE+확산 패러다임은 제한된 훈련 효율성, 느린 추론 속도, 그리고 더 넓은 시각 작업으로의 전이성 부족 등의 문제를 안고 있습니다. 이러한 문제는 VAE 잠재 공간의 근본적인 한계, 즉 명확한 의미론적 분리와 강력한 판별 구조의 부재에서 비롯됩니다. 우리의 분석에 따르면, 이러한 특성은 단순히 인식 및 이해 작업뿐만 아니라 잠재 확산 모델의 안정적이고 효율적인 훈련에도 중요한 것으로 확인되었습니다. 이러한 통찰을 바탕으로, 우리는 변분 오토인코더 없이도 시각 생성을 가능하게 하는 새로운 잠재 확산 모델인 SVG를 제안합니다. SVG는 고정된 DINO 특징을 활용하여 명확한 의미론적 판별력을 가진 특징 공간을 구성함과 동시에, 경량의 잔차 분기가 고품질 재구성을 위한 미세한 세부 사항을 포착합니다. 확산 모델은 이러한 의미론적으로 구조화된 잠재 공간에서 직접 훈련되어 더 효율적인 학습을 가능하게 합니다. 그 결과, SVG는 확산 훈련 속도를 가속화하고, 적은 단계의 샘플링을 지원하며, 생성 품질을 향상시킵니다. 실험 결과는 또한 SVG가 기반이 되는 자기 지도 표현의 의미론적 및 판별 능력을 유지함으로써, 작업 일반화 가능한 고품질 시각 표현을 위한 원칙적인 접근 방식을 제공함을 보여줍니다.
English
Recent progress in diffusion-based visual generation has largely relied on
latent diffusion models with variational autoencoders (VAEs). While effective
for high-fidelity synthesis, this VAE+diffusion paradigm suffers from limited
training efficiency, slow inference, and poor transferability to broader vision
tasks. These issues stem from a key limitation of VAE latent spaces: the lack
of clear semantic separation and strong discriminative structure. Our analysis
confirms that these properties are crucial not only for perception and
understanding tasks, but also for the stable and efficient training of latent
diffusion models. Motivated by this insight, we introduce SVG, a novel latent
diffusion model without variational autoencoders, which leverages
self-supervised representations for visual generation. SVG constructs a feature
space with clear semantic discriminability by leveraging frozen DINO features,
while a lightweight residual branch captures fine-grained details for
high-fidelity reconstruction. Diffusion models are trained directly on this
semantically structured latent space to facilitate more efficient learning. As
a result, SVG enables accelerated diffusion training, supports few-step
sampling, and improves generative quality. Experimental results further show
that SVG preserves the semantic and discriminative capabilities of the
underlying self-supervised representations, providing a principled pathway
toward task-general, high-quality visual representations.