Геометрический автоэнкодер для диффузионных моделей

Аннотация

Латентные диффузионные модели установили новый эталон в области генерации высококачественных изображений. Интеграция априорных знаний Vision Foundation Models (VFM) повышает эффективность генерации, однако существующие латентные архитектуры остаются в значительной степени эвристическими. Эти подходы часто не способны объединить семантическую различимость, точность реконструкции и компактность латентного представления. В данной статье мы предлагаем Геометрический Автокодировщик (GAE) — принципиальную框架у, которая системно решает эти задачи. Анализируя различные парадигмы выравнивания, GAE конструирует оптимизированную низкоразмерную цель семантического обучения на основе VFM для управления автокодировщиком. Кроме того, мы используем латентную нормализацию, заменяющую ограничивающую KL-дивергенцию стандартных VAEs, что обеспечивает более стабильное латентное многообразие, специально оптимизированное для обучения диффузии. Для обеспечения устойчивой реконструкции при интенсивном шуме GAE включает механизм динамического сэмплирования шума. Экспериментально GAE демонстрирует выдающиеся результаты на benchmark ImageNet-1K 256×256, достигая gFID 1.82 всего за 80 эпох и 1.31 за 800 эпох без Classifier-Free Guidance, значительно превосходя современные методы. Помимо качества генерации, GAE устанавливает превосходный баланс между сжатием, семантической глубиной и устойчивостью реконструкции. Эти результаты подтверждают наши проектные решения, предлагая перспективную парадигму для латентного диффузионного моделирования. Код и модели доступны по адресу https://github.com/freezing-index/Geometric-Autoencoder-for-Diffusion-Models.

English

Latent diffusion models have established a new state-of-the-art in high-resolution visual generation. Integrating Vision Foundation Model priors improves generative efficiency, yet existing latent designs remain largely heuristic. These approaches often struggle to unify semantic discriminability, reconstruction fidelity, and latent compactness. In this paper, we propose Geometric Autoencoder (GAE), a principled framework that systematically addresses these challenges. By analyzing various alignment paradigms, GAE constructs an optimized low-dimensional semantic supervision target from VFMs to provide guidance for the autoencoder. Furthermore, we leverage latent normalization that replaces the restrictive KL-divergence of standard VAEs, enabling a more stable latent manifold specifically optimized for diffusion learning. To ensure robust reconstruction under high-intensity noise, GAE incorporates a dynamic noise sampling mechanism. Empirically, GAE achieves compelling performance on the ImageNet-1K 256 times 256 benchmark, reaching a gFID of 1.82 at only 80 epochs and 1.31 at 800 epochs without Classifier-Free Guidance, significantly surpassing existing state-of-the-art methods. Beyond generative quality, GAE establishes a superior equilibrium between compression, semantic depth and robust reconstruction stability. These results validate our design considerations, offering a promising paradigm for latent diffusion modeling. Code and models are publicly available at https://github.com/freezing-index/Geometric-Autoencoder-for-Diffusion-Models.

Геометрический автоэнкодер для диффузионных моделей

Geometric Autoencoder for Diffusion Models

Аннотация

Support