Autoencodeur Géométrique pour les Modèles de Diffusion

Résumé

Les modèles de diffusion latente ont établi un nouvel état de l'art en génération visuelle haute résolution. L'intégration d'a priori issus de modèles de fondation visuelle améliore l'efficacité générative, mais les conceptions latentes existantes restent largement heuristiques. Ces approches peinent souvent à unifier la discriminabilité sémantique, la fidélité de reconstruction et la compacité latente. Dans cet article, nous proposons l'Autoencodeur Géométrique (GAE), un cadre théorique qui aborde systématiquement ces défis. En analysant divers paradigmes d'alignement, GAE construit une cible de supervision sémantique optimisée en basse dimension à partir des MFVs pour guider l'autoencodeur. De plus, nous exploitons une normalisation latente qui remplace la divergence KL restrictive des VAE standards, permettant une variété latente plus stable spécialement optimisée pour l'apprentissage par diffusion. Pour garantir une reconstruction robuste sous un bruit de haute intensité, GAE intègre un mécanisme dynamique d'échantillonnage de bruit. Empiriquement, GAE atteint des performances convaincantes sur le benchmark ImageNet-1K 256×256, obtenant un gFID de 1,82 après seulement 80 époques et 1,31 après 800 époques sans Guidage Sans Classifieur, surpassant significativement les méthodes état de l'art existantes. Au-delà de la qualité générative, GAE établit un équilibre supérieur entre compression, profondeur sémantique et stabilité de reconstruction robuste. Ces résultats valident nos considérations de conception, offrant un paradigme prometteur pour la modélisation par diffusion latente. Le code et les modèles sont disponibles publiquement à l'adresse https://github.com/freezing-index/Geometric-Autoencoder-for-Diffusion-Models.

English

Latent diffusion models have established a new state-of-the-art in high-resolution visual generation. Integrating Vision Foundation Model priors improves generative efficiency, yet existing latent designs remain largely heuristic. These approaches often struggle to unify semantic discriminability, reconstruction fidelity, and latent compactness. In this paper, we propose Geometric Autoencoder (GAE), a principled framework that systematically addresses these challenges. By analyzing various alignment paradigms, GAE constructs an optimized low-dimensional semantic supervision target from VFMs to provide guidance for the autoencoder. Furthermore, we leverage latent normalization that replaces the restrictive KL-divergence of standard VAEs, enabling a more stable latent manifold specifically optimized for diffusion learning. To ensure robust reconstruction under high-intensity noise, GAE incorporates a dynamic noise sampling mechanism. Empirically, GAE achieves compelling performance on the ImageNet-1K 256 times 256 benchmark, reaching a gFID of 1.82 at only 80 epochs and 1.31 at 800 epochs without Classifier-Free Guidance, significantly surpassing existing state-of-the-art methods. Beyond generative quality, GAE establishes a superior equilibrium between compression, semantic depth and robust reconstruction stability. These results validate our design considerations, offering a promising paradigm for latent diffusion modeling. Code and models are publicly available at https://github.com/freezing-index/Geometric-Autoencoder-for-Diffusion-Models.

Autoencodeur Géométrique pour les Modèles de Diffusion

Geometric Autoencoder for Diffusion Models

Résumé

Support