Geometrischer Autoencoder für Diffusionsmodelle
Geometric Autoencoder for Diffusion Models
March 11, 2026
Autoren: Hangyu Liu, Jianyong Wang, Yutao Sun
cs.AI
Zusammenfassung
Latente Diffusionsmodelle haben einen neuen State-of-the-Art in der hochauflösenden Bildgenerierung etabliert. Die Integration von Priors aus Vision Foundation Models verbessert die generative Effizienz, doch bestehende latente Designs bleiben weitgehend heuristisch. Diese Ansätze haben oft Schwierigkeiten, semantische Diskriminierbarkeit, Rekonstruktionstreue und latente Kompaktheit zu vereinen. In diesem Artikel schlagen wir den Geometric Autoencoder (GAE) vor, einen prinzipienbasierten Rahmen, der diese Herausforderungen systematisch adressiert. Durch die Analyse verschiedener Alignment-Paradigmen konstruiert GAE ein optimiertes, niedrigdimensionales semantisches Supervisionsziel aus VFMs, um eine Anleitung für den Autoencoder bereitzustellen. Darüber hinaus nutzen wir eine latente Normalisierung, die die restriktive KL-Divergenz standardmäßiger VAEs ersetzt und so eine stabilere latente Mannigfaltigkeit ermöglicht, die speziell für das Diffusionslernen optimiert ist. Um eine robuste Rekonstruktion unter hochintensivem Rauschen zu gewährleisten, integriert GAE einen dynamischen Noise-Sampling-Mechanismus. Empirisch erzielt GAE überzeugende Leistungen auf dem ImageNet-1K-256×256-Benchmark und erreicht einen gFID von 1,82 nach nur 80 Epochen und 1,31 nach 800 Epochen ohne Classifier-Free Guidance, womit es bestehende State-of-the-Art-Methoden deutlich übertrifft. Über die generative Qualität hinaus stellt GAE eine überlegene Balance zwischen Kompression, semantischer Tiefe und robuster Rekonstruktionsstabilität her. Diese Ergebnisse validieren unsere Designüberlegungen und bieten ein vielversprechendes Paradigma für latente Diffusionsmodellierung. Code und Modelle sind öffentlich verfügbar unter https://github.com/freezing-index/Geometric-Autoencoder-for-Diffusion-Models.
English
Latent diffusion models have established a new state-of-the-art in high-resolution visual generation. Integrating Vision Foundation Model priors improves generative efficiency, yet existing latent designs remain largely heuristic. These approaches often struggle to unify semantic discriminability, reconstruction fidelity, and latent compactness. In this paper, we propose Geometric Autoencoder (GAE), a principled framework that systematically addresses these challenges. By analyzing various alignment paradigms, GAE constructs an optimized low-dimensional semantic supervision target from VFMs to provide guidance for the autoencoder. Furthermore, we leverage latent normalization that replaces the restrictive KL-divergence of standard VAEs, enabling a more stable latent manifold specifically optimized for diffusion learning. To ensure robust reconstruction under high-intensity noise, GAE incorporates a dynamic noise sampling mechanism. Empirically, GAE achieves compelling performance on the ImageNet-1K 256 times 256 benchmark, reaching a gFID of 1.82 at only 80 epochs and 1.31 at 800 epochs without Classifier-Free Guidance, significantly surpassing existing state-of-the-art methods. Beyond generative quality, GAE establishes a superior equilibrium between compression, semantic depth and robust reconstruction stability. These results validate our design considerations, offering a promising paradigm for latent diffusion modeling. Code and models are publicly available at https://github.com/freezing-index/Geometric-Autoencoder-for-Diffusion-Models.