Geometrische Autoencoder voor Diffusiemodellen

Samenvatting

Latente diffusiemodellen hebben een nieuwe staat-van-de-kunst gevestigd in hoogresolutie visuele generatie. Het integreren van Vision Foundation Model-priors verbetert de generatieve efficiëntie, maar bestaande latente ontwerpen blijven grotendeels heuristisch. Deze benaderingen hebben vaak moeite om semantische onderscheidbaarheid, reconstructiegetrouwheid en latente compactheid te verenigen. In dit artikel stellen we de Geometric Autoencoder (GAE) voor, een principieel raamwerk dat deze uitdagingen systematisch aanpakt. Door verschillende uitlijningsparadigma's te analyseren, construeert GAE een geoptimaliseerd laagdimensionaal semantisch supervisiedoel uit VFMs om richting te geven aan de auto-encoder. Verder benutten we latente normalisatie die de restrictieve KL-divergentie van standaard VAEs vervangt, wat een stabieler latent spruitstuk mogelijk maakt dat specifiek is geoptimaliseerd voor diffusieleren. Om robuuste reconstructie onder hoogintensiteitsruis te garanderen, integreert GAE een dynamisch ruisbemonsteringsmechanisme. Empirisch bereikt GAE overtuigende prestaties op de ImageNet-1K 256×256 benchmark, met een gFID van 1,82 na slechts 80 epochs en 1,31 na 800 epochs zonder Classifier-Free Guidance, wat bestaande staat-van-de-kunst methoden significant overtreft. Naast generatieve kwaliteit vestigt GAE een superieur evenwicht tussen compressie, semantische diepte en robuuste reconstructiestabiliteit. Deze resultaten valideren onze ontwerpoverwegingen en bieden een veelbelovend paradigma voor latent diffusiemodelleren. Code en modellen zijn openbaar beschikbaar op https://github.com/freezing-index/Geometric-Autoencoder-for-Diffusion-Models.

English

Latent diffusion models have established a new state-of-the-art in high-resolution visual generation. Integrating Vision Foundation Model priors improves generative efficiency, yet existing latent designs remain largely heuristic. These approaches often struggle to unify semantic discriminability, reconstruction fidelity, and latent compactness. In this paper, we propose Geometric Autoencoder (GAE), a principled framework that systematically addresses these challenges. By analyzing various alignment paradigms, GAE constructs an optimized low-dimensional semantic supervision target from VFMs to provide guidance for the autoencoder. Furthermore, we leverage latent normalization that replaces the restrictive KL-divergence of standard VAEs, enabling a more stable latent manifold specifically optimized for diffusion learning. To ensure robust reconstruction under high-intensity noise, GAE incorporates a dynamic noise sampling mechanism. Empirically, GAE achieves compelling performance on the ImageNet-1K 256 times 256 benchmark, reaching a gFID of 1.82 at only 80 epochs and 1.31 at 800 epochs without Classifier-Free Guidance, significantly surpassing existing state-of-the-art methods. Beyond generative quality, GAE establishes a superior equilibrium between compression, semantic depth and robust reconstruction stability. These results validate our design considerations, offering a promising paradigm for latent diffusion modeling. Code and models are publicly available at https://github.com/freezing-index/Geometric-Autoencoder-for-Diffusion-Models.

Geometrische Autoencoder voor Diffusiemodellen

Geometric Autoencoder for Diffusion Models

Samenvatting

Support