Latent Diffusion Modell ohne Variational Autoencoder
Latent Diffusion Model without Variational Autoencoder
October 17, 2025
papers.authors: Minglei Shi, Haolin Wang, Wenzhao Zheng, Ziyang Yuan, Xiaoshi Wu, Xintao Wang, Pengfei Wan, Jie Zhou, Jiwen Lu
cs.AI
papers.abstract
Jüngste Fortschritte in der diffusionsbasierten visuellen Generierung beruhen weitgehend auf latenten Diffusionsmodellen mit Variations-Autoencodern (VAEs). Obwohl effektiv für die hochauflösende Synthese, leidet dieses VAE+Diffusions-Paradigma unter begrenzter Trainings effizienz, langsamer Inferenz und schlechter Übertragbarkeit auf breitere Vision-Aufgaben. Diese Probleme resultieren aus einer zentralen Einschränkung der VAE-Latenzräume: dem Fehlen einer klaren semantischen Trennung und einer starken diskriminativen Struktur. Unsere Analyse bestätigt, dass diese Eigenschaften nicht nur für Wahrnehmungs- und Verständnisaufgaben entscheidend sind, sondern auch für das stabile und effiziente Training latenter Diffusionsmodelle. Motiviert durch diese Erkenntnis führen wir SVG ein, ein neuartiges latentes Diffusionsmodell ohne Variations-Autoencoder, das selbstüberwachte Repräsentationen für die visuelle Generierung nutzt. SVG konstruiert einen Merkmalsraum mit klarer semantischer Diskriminierbarkeit durch die Verwendung eingefrorener DINO-Merkmale, während ein leichtgewichtiger Residualzweig feinkörnige Details für die hochauflösende Rekonstruktion erfasst. Diffusionsmodelle werden direkt auf diesem semantisch strukturierten latenten Raum trainiert, um ein effizienteres Lernen zu ermöglichen. Dadurch ermöglicht SVG beschleunigtes Diffusionstraining, unterstützt die Probenahme in wenigen Schritten und verbessert die generative Qualität. Experimentelle Ergebnisse zeigen weiterhin, dass SVG die semantischen und diskriminativen Fähigkeiten der zugrunde liegenden selbstüberwachten Repräsentationen bewahrt und einen prinzipiellen Weg hin zu aufgabengenerellen, hochwertigen visuellen Repräsentationen bietet.
English
Recent progress in diffusion-based visual generation has largely relied on
latent diffusion models with variational autoencoders (VAEs). While effective
for high-fidelity synthesis, this VAE+diffusion paradigm suffers from limited
training efficiency, slow inference, and poor transferability to broader vision
tasks. These issues stem from a key limitation of VAE latent spaces: the lack
of clear semantic separation and strong discriminative structure. Our analysis
confirms that these properties are crucial not only for perception and
understanding tasks, but also for the stable and efficient training of latent
diffusion models. Motivated by this insight, we introduce SVG, a novel latent
diffusion model without variational autoencoders, which leverages
self-supervised representations for visual generation. SVG constructs a feature
space with clear semantic discriminability by leveraging frozen DINO features,
while a lightweight residual branch captures fine-grained details for
high-fidelity reconstruction. Diffusion models are trained directly on this
semantically structured latent space to facilitate more efficient learning. As
a result, SVG enables accelerated diffusion training, supports few-step
sampling, and improves generative quality. Experimental results further show
that SVG preserves the semantic and discriminative capabilities of the
underlying self-supervised representations, providing a principled pathway
toward task-general, high-quality visual representations.