変分オートエンコーダを伴わない潜在拡散モデル
Latent Diffusion Model without Variational Autoencoder
October 17, 2025
著者: Minglei Shi, Haolin Wang, Wenzhao Zheng, Ziyang Yuan, Xiaoshi Wu, Xintao Wang, Pengfei Wan, Jie Zhou, Jiwen Lu
cs.AI
要旨
拡散ベースの視覚生成における最近の進展は、変分オートエンコーダ(VAE)を用いた潜在拡散モデルに大きく依存してきた。高忠実度の合成において有効である一方で、このVAE+拡散パラダイムは、トレーニング効率の低さ、推論の遅さ、およびより広範な視覚タスクへの転移性の低さといった課題を抱えている。これらの問題は、VAEの潜在空間における重要な制限、すなわち明確な意味的分離と強力な識別構造の欠如に起因している。我々の分析は、これらの特性が知覚および理解タスクだけでなく、潜在拡散モデルの安定かつ効率的なトレーニングにおいても重要であることを確認している。この洞察に基づき、我々はSVG(Self-supervised Visual Generation)を提案する。これは変分オートエンコーダを用いない新しい潜在拡散モデルであり、自己教師あり表現を活用して視覚生成を行う。SVGは、凍結されたDINO特徴を活用して明確な意味的識別性を持つ特徴空間を構築し、軽量な残差ブランチが高忠実度再構成のための微細な詳細を捕捉する。拡散モデルは、この意味的に構造化された潜在空間上で直接トレーニングされ、より効率的な学習を促進する。その結果、SVGは拡散トレーニングの加速、少数ステップでのサンプリングのサポート、および生成品質の向上を実現する。実験結果はさらに、SVGが基盤となる自己教師あり表現の意味的および識別的機能を保持し、タスク汎用的で高品質な視覚表現に向けた原理的な道筋を提供することを示している。
English
Recent progress in diffusion-based visual generation has largely relied on
latent diffusion models with variational autoencoders (VAEs). While effective
for high-fidelity synthesis, this VAE+diffusion paradigm suffers from limited
training efficiency, slow inference, and poor transferability to broader vision
tasks. These issues stem from a key limitation of VAE latent spaces: the lack
of clear semantic separation and strong discriminative structure. Our analysis
confirms that these properties are crucial not only for perception and
understanding tasks, but also for the stable and efficient training of latent
diffusion models. Motivated by this insight, we introduce SVG, a novel latent
diffusion model without variational autoencoders, which leverages
self-supervised representations for visual generation. SVG constructs a feature
space with clear semantic discriminability by leveraging frozen DINO features,
while a lightweight residual branch captures fine-grained details for
high-fidelity reconstruction. Diffusion models are trained directly on this
semantically structured latent space to facilitate more efficient learning. As
a result, SVG enables accelerated diffusion training, supports few-step
sampling, and improves generative quality. Experimental results further show
that SVG preserves the semantic and discriminative capabilities of the
underlying self-supervised representations, providing a principled pathway
toward task-general, high-quality visual representations.