ChatPaper.aiChatPaper

변분 오토인코더가 없는 잠재 확산 모델

Latent Diffusion Model without Variational Autoencoder

October 17, 2025
저자: Minglei Shi, Haolin Wang, Wenzhao Zheng, Ziyang Yuan, Xiaoshi Wu, Xintao Wang, Pengfei Wan, Jie Zhou, Jiwen Lu
cs.AI

초록

최근 확산 기반 시각 생성 연구는 주로 변분 오토인코더(VAE)와 결합된 잠재 확산 모델에 의존해 왔습니다. 고품질 합성에는 효과적이지만, 이러한 VAE+확산 패러다임은 제한된 훈련 효율성, 느린 추론 속도, 그리고 더 넓은 시각 작업으로의 전이성 부족 등의 문제를 안고 있습니다. 이러한 문제는 VAE 잠재 공간의 근본적인 한계, 즉 명확한 의미론적 분리와 강력한 판별 구조의 부재에서 비롯됩니다. 우리의 분석에 따르면, 이러한 특성은 단순히 인식 및 이해 작업뿐만 아니라 잠재 확산 모델의 안정적이고 효율적인 훈련에도 중요한 것으로 확인되었습니다. 이러한 통찰을 바탕으로, 우리는 변분 오토인코더 없이도 시각 생성을 가능하게 하는 새로운 잠재 확산 모델인 SVG를 제안합니다. SVG는 고정된 DINO 특징을 활용하여 명확한 의미론적 판별력을 가진 특징 공간을 구성함과 동시에, 경량의 잔차 분기가 고품질 재구성을 위한 미세한 세부 사항을 포착합니다. 확산 모델은 이러한 의미론적으로 구조화된 잠재 공간에서 직접 훈련되어 더 효율적인 학습을 가능하게 합니다. 그 결과, SVG는 확산 훈련 속도를 가속화하고, 적은 단계의 샘플링을 지원하며, 생성 품질을 향상시킵니다. 실험 결과는 또한 SVG가 기반이 되는 자기 지도 표현의 의미론적 및 판별 능력을 유지함으로써, 작업 일반화 가능한 고품질 시각 표현을 위한 원칙적인 접근 방식을 제공함을 보여줍니다.
English
Recent progress in diffusion-based visual generation has largely relied on latent diffusion models with variational autoencoders (VAEs). While effective for high-fidelity synthesis, this VAE+diffusion paradigm suffers from limited training efficiency, slow inference, and poor transferability to broader vision tasks. These issues stem from a key limitation of VAE latent spaces: the lack of clear semantic separation and strong discriminative structure. Our analysis confirms that these properties are crucial not only for perception and understanding tasks, but also for the stable and efficient training of latent diffusion models. Motivated by this insight, we introduce SVG, a novel latent diffusion model without variational autoencoders, which leverages self-supervised representations for visual generation. SVG constructs a feature space with clear semantic discriminability by leveraging frozen DINO features, while a lightweight residual branch captures fine-grained details for high-fidelity reconstruction. Diffusion models are trained directly on this semantically structured latent space to facilitate more efficient learning. As a result, SVG enables accelerated diffusion training, supports few-step sampling, and improves generative quality. Experimental results further show that SVG preserves the semantic and discriminative capabilities of the underlying self-supervised representations, providing a principled pathway toward task-general, high-quality visual representations.
PDF382October 20, 2025