Autoencoder Geométrico para Modelos de Difusión

Resumen

Los modelos de difusión latente han establecido un nuevo estado del arte en la generación visual de alta resolución. La integración de previos de Modelos Base de Visión mejora la eficiencia generativa, sin embargo, los diseños latentes existentes siguen siendo en gran medida heurísticos. Estos enfoques a menudo luchan por unificar la discriminabilidad semántica, la fidelidad de reconstrucción y la compacidad latente. En este artículo, proponemos el Autoencoder Geométrico (GAE), un marco fundamentado que aborda sistemáticamente estos desafíos. Mediante el análisis de varios paradigmas de alineación, GAE construye un objetivo de supervisión semántica optimizado de baja dimensionalidad a partir de los MFV para proporcionar guía al autoencoder. Además, aprovechamos una normalización latente que reemplaza la restrictiva divergencia KL de los VAE estándar, permitiendo una variedad latente más estable específicamente optimizada para el aprendizaje por difusión. Para garantizar una reconstrucción robusta bajo ruido de alta intensidad, GAE incorpora un mecanismo dinámico de muestreo de ruido. Empíricamente, GAE logra un rendimiento convincente en el benchmark ImageNet-1K 256x256, alcanzando un gFID de 1.82 en solo 80 épocas y 1.31 en 800 épocas sin Guía Libre de Clasificador, superando significativamente a los métodos existentes más avanzados. Más allá de la calidad generativa, GAE establece un equilibrio superior entre compresión, profundidad semántica y estabilidad de reconstrucción robusta. Estos resultados validan nuestras consideraciones de diseño, ofreciendo un paradigma prometedor para el modelado de difusión latente. El código y los modelos están disponibles públicamente en https://github.com/freezing-index/Geometric-Autoencoder-for-Diffusion-Models.

English

Latent diffusion models have established a new state-of-the-art in high-resolution visual generation. Integrating Vision Foundation Model priors improves generative efficiency, yet existing latent designs remain largely heuristic. These approaches often struggle to unify semantic discriminability, reconstruction fidelity, and latent compactness. In this paper, we propose Geometric Autoencoder (GAE), a principled framework that systematically addresses these challenges. By analyzing various alignment paradigms, GAE constructs an optimized low-dimensional semantic supervision target from VFMs to provide guidance for the autoencoder. Furthermore, we leverage latent normalization that replaces the restrictive KL-divergence of standard VAEs, enabling a more stable latent manifold specifically optimized for diffusion learning. To ensure robust reconstruction under high-intensity noise, GAE incorporates a dynamic noise sampling mechanism. Empirically, GAE achieves compelling performance on the ImageNet-1K 256 times 256 benchmark, reaching a gFID of 1.82 at only 80 epochs and 1.31 at 800 epochs without Classifier-Free Guidance, significantly surpassing existing state-of-the-art methods. Beyond generative quality, GAE establishes a superior equilibrium between compression, semantic depth and robust reconstruction stability. These results validate our design considerations, offering a promising paradigm for latent diffusion modeling. Code and models are publicly available at https://github.com/freezing-index/Geometric-Autoencoder-for-Diffusion-Models.

Autoencoder Geométrico para Modelos de Difusión

Geometric Autoencoder for Diffusion Models

Resumen

Support