Latent Diffusion Model zonder Variational Autoencoder
Latent Diffusion Model without Variational Autoencoder
October 17, 2025
Auteurs: Minglei Shi, Haolin Wang, Wenzhao Zheng, Ziyang Yuan, Xiaoshi Wu, Xintao Wang, Pengfei Wan, Jie Zhou, Jiwen Lu
cs.AI
Samenvatting
Recente vooruitgang in diffusiegebaseerde visuele generatie heeft grotendeels vertrouwd op latente diffusiemodellen met variational autoencoders (VAE's). Hoewel effectief voor hoogwaardige synthese, lijdt dit VAE+diffusie-paradigma onder beperkte trainingsefficiëntie, trage inferentie en slechte overdraagbaarheid naar bredere visietaken. Deze problemen zijn het gevolg van een belangrijke beperking van VAE-latente ruimtes: het ontbreken van duidelijke semantische scheiding en een sterke discriminerende structuur. Onze analyse bevestigt dat deze eigenschappen cruciaal zijn, niet alleen voor perceptie- en begripstaken, maar ook voor de stabiele en efficiënte training van latente diffusiemodellen. Gemotiveerd door dit inzicht introduceren we SVG, een nieuw latent diffusiemodel zonder variational autoencoders, dat zelfgesuperviseerde representaties benut voor visuele generatie. SVG construeert een kenmerkruimte met duidelijke semantische onderscheidbaarheid door gebruik te maken van bevroren DINO-kenmerken, terwijl een lichtgewicht residutak fijnmazige details vastlegt voor hoogwaardige reconstructie. Diffusiemodellen worden rechtstreeks getraind op deze semantisch gestructureerde latente ruimte om efficiënter leren te bevorderen. Als gevolg hiervan maakt SVG versnelde diffusietraining mogelijk, ondersteunt het sampling met weinig stappen en verbetert het de generatieve kwaliteit. Experimentele resultaten tonen verder aan dat SVG de semantische en discriminerende capaciteiten van de onderliggende zelfgesuperviseerde representaties behoudt, wat een principiële weg biedt naar taakgenerieke, hoogwaardige visuele representaties.
English
Recent progress in diffusion-based visual generation has largely relied on
latent diffusion models with variational autoencoders (VAEs). While effective
for high-fidelity synthesis, this VAE+diffusion paradigm suffers from limited
training efficiency, slow inference, and poor transferability to broader vision
tasks. These issues stem from a key limitation of VAE latent spaces: the lack
of clear semantic separation and strong discriminative structure. Our analysis
confirms that these properties are crucial not only for perception and
understanding tasks, but also for the stable and efficient training of latent
diffusion models. Motivated by this insight, we introduce SVG, a novel latent
diffusion model without variational autoencoders, which leverages
self-supervised representations for visual generation. SVG constructs a feature
space with clear semantic discriminability by leveraging frozen DINO features,
while a lightweight residual branch captures fine-grained details for
high-fidelity reconstruction. Diffusion models are trained directly on this
semantically structured latent space to facilitate more efficient learning. As
a result, SVG enables accelerated diffusion training, supports few-step
sampling, and improves generative quality. Experimental results further show
that SVG preserves the semantic and discriminative capabilities of the
underlying self-supervised representations, providing a principled pathway
toward task-general, high-quality visual representations.