ChatPaper.aiChatPaper

Modèle de diffusion latente sans autoencodeur variationnel

Latent Diffusion Model without Variational Autoencoder

October 17, 2025
papers.authors: Minglei Shi, Haolin Wang, Wenzhao Zheng, Ziyang Yuan, Xiaoshi Wu, Xintao Wang, Pengfei Wan, Jie Zhou, Jiwen Lu
cs.AI

papers.abstract

Les progrès récents dans la génération visuelle basée sur la diffusion reposent largement sur des modèles de diffusion latente avec des autoencodeurs variationnels (VAE). Bien qu'efficaces pour la synthèse haute fidélité, ce paradigme VAE+diffusion souffre d'une efficacité d'entraînement limitée, d'une inférence lente et d'une faible transférabilité à des tâches de vision plus larges. Ces problèmes découlent d'une limitation clé des espaces latents des VAE : l'absence de séparation sémantique claire et de structure discriminative forte. Notre analyse confirme que ces propriétés sont cruciales non seulement pour les tâches de perception et de compréhension, mais aussi pour l'entraînement stable et efficace des modèles de diffusion latente. Motivés par cette observation, nous introduisons SVG, un nouveau modèle de diffusion latente sans autoencodeurs variationnels, qui exploite des représentations auto-supervisées pour la génération visuelle. SVG construit un espace de caractéristiques avec une discriminabilité sémantique claire en exploitant des caractéristiques DINO gelées, tandis qu'une branche résiduelle légère capture les détails fins pour une reconstruction haute fidélité. Les modèles de diffusion sont entraînés directement sur cet espace latent structuré sémantiquement pour faciliter un apprentissage plus efficace. En conséquence, SVG permet un entraînement accéléré de la diffusion, supporte un échantillonnage en quelques étapes et améliore la qualité générative. Les résultats expérimentaux montrent en outre que SVG préserve les capacités sémantiques et discriminatives des représentations auto-supervisées sous-jacentes, offrant ainsi une voie méthodique vers des représentations visuelles de haute qualité et généralisables à diverses tâches.
English
Recent progress in diffusion-based visual generation has largely relied on latent diffusion models with variational autoencoders (VAEs). While effective for high-fidelity synthesis, this VAE+diffusion paradigm suffers from limited training efficiency, slow inference, and poor transferability to broader vision tasks. These issues stem from a key limitation of VAE latent spaces: the lack of clear semantic separation and strong discriminative structure. Our analysis confirms that these properties are crucial not only for perception and understanding tasks, but also for the stable and efficient training of latent diffusion models. Motivated by this insight, we introduce SVG, a novel latent diffusion model without variational autoencoders, which leverages self-supervised representations for visual generation. SVG constructs a feature space with clear semantic discriminability by leveraging frozen DINO features, while a lightweight residual branch captures fine-grained details for high-fidelity reconstruction. Diffusion models are trained directly on this semantically structured latent space to facilitate more efficient learning. As a result, SVG enables accelerated diffusion training, supports few-step sampling, and improves generative quality. Experimental results further show that SVG preserves the semantic and discriminative capabilities of the underlying self-supervised representations, providing a principled pathway toward task-general, high-quality visual representations.
PDF382October 20, 2025