Autoencoder Geometrico per Modelli di Diffusione

Abstract

I modelli di diffusione latente hanno stabilito un nuovo stato dell'arte nella generazione visiva ad alta risoluzione. L'integrazione di prior provenienti da Vision Foundation Model migliora l'efficienza generativa, eppure le progettazioni latenti esistenti rimangono in gran parte euristiche. Questi approcci spesso faticano a unificare la discriminabilità semantica, la fedeltà di ricostruzione e la compattezza latente. In questo articolo, proponiamo Geometric Autoencoder (GAE), un framework principiato che affronta sistematicamente queste sfide. Analizzando vari paradigmi di allineamento, GAE costruisce un target di supervisione semantica ottimizzato a bassa dimensionalità a partire da VFM per fornire una guida all'autoencoder. Inoltre, sfruttiamo una normalizzazione latente che sostituisce la restrittiva divergenza KL dei VAE standard, abilitando un manifold latente più stabile specificamente ottimizzato per l'apprendimento per diffusione. Per garantire una ricostruzione robusta sotto rumore ad alta intensità, GAE incorpora un meccanismo dinamico di campionamento del rumore. Empiricamente, GAE raggiunge prestazioni convincenti sul benchmark ImageNet-1K 256x256, ottenendo un gFID di 1.82 a sole 80 epoche e 1.31 a 800 epoche senza Classifier-Free Guidance, superando significativamente i metodi allo stato dell'arte esistenti. Oltre alla qualità generativa, GAE stabilisce un equilibrio superiore tra compressione, profondità semantica e stabilità di ricostruzione robusta. Questi risultati convalidano le nostre considerazioni progettuali, offrendo un paradigma promettente per la modellazione di diffusione latente. Codice e modelli sono pubblicamente disponibili su https://github.com/freezing-index/Geometric-Autoencoder-for-Diffusion-Models.

English

Latent diffusion models have established a new state-of-the-art in high-resolution visual generation. Integrating Vision Foundation Model priors improves generative efficiency, yet existing latent designs remain largely heuristic. These approaches often struggle to unify semantic discriminability, reconstruction fidelity, and latent compactness. In this paper, we propose Geometric Autoencoder (GAE), a principled framework that systematically addresses these challenges. By analyzing various alignment paradigms, GAE constructs an optimized low-dimensional semantic supervision target from VFMs to provide guidance for the autoencoder. Furthermore, we leverage latent normalization that replaces the restrictive KL-divergence of standard VAEs, enabling a more stable latent manifold specifically optimized for diffusion learning. To ensure robust reconstruction under high-intensity noise, GAE incorporates a dynamic noise sampling mechanism. Empirically, GAE achieves compelling performance on the ImageNet-1K 256 times 256 benchmark, reaching a gFID of 1.82 at only 80 epochs and 1.31 at 800 epochs without Classifier-Free Guidance, significantly surpassing existing state-of-the-art methods. Beyond generative quality, GAE establishes a superior equilibrium between compression, semantic depth and robust reconstruction stability. These results validate our design considerations, offering a promising paradigm for latent diffusion modeling. Code and models are publicly available at https://github.com/freezing-index/Geometric-Autoencoder-for-Diffusion-Models.

Autoencoder Geometrico per Modelli di Diffusione

Geometric Autoencoder for Diffusion Models

Abstract

Support