EQ-VAE : Espace latent régularisé par équivariance pour une modélisation générative d'images améliorée
EQ-VAE: Equivariance Regularized Latent Space for Improved Generative Image Modeling
February 13, 2025
Auteurs: Theodoros Kouzelis, Ioannis Kakogeorgiou, Spyros Gidaris, Nikos Komodakis
cs.AI
Résumé
Les modèles génératifs latents se sont imposés comme une approche de pointe pour la synthèse d'images de haute qualité. Ces modèles s'appuient sur un autoencodeur pour compresser les images dans un espace latent, suivi d'un modèle génératif pour apprendre la distribution latente. Nous constatons que les autoencodeurs existants manquent d'équivariance par rapport aux transformations préservant la sémantique, telles que la mise à l'échelle et la rotation, ce qui entraîne des espaces latents complexes qui nuisent aux performances génératives. Pour remédier à cela, nous proposons EQ-VAE, une approche de régularisation simple qui impose l'équivariance dans l'espace latent, réduisant ainsi sa complexité sans dégrader la qualité de reconstruction. En affinant des autoencodeurs pré-entraînés avec EQ-VAE, nous améliorons les performances de plusieurs modèles génératifs de pointe, notamment DiT, SiT, REPA et MaskGIT, obtenant une accélération de 7 fois sur DiT-XL/2 avec seulement cinq époques de fine-tuning de SD-VAE. EQ-VAE est compatible avec les autoencodeurs continus et discrets, offrant ainsi une amélioration polyvalente pour une large gamme de modèles génératifs latents. Page du projet et code : https://eq-vae.github.io/.
English
Latent generative models have emerged as a leading approach for high-quality
image synthesis. These models rely on an autoencoder to compress images into a
latent space, followed by a generative model to learn the latent distribution.
We identify that existing autoencoders lack equivariance to semantic-preserving
transformations like scaling and rotation, resulting in complex latent spaces
that hinder generative performance. To address this, we propose EQ-VAE, a
simple regularization approach that enforces equivariance in the latent space,
reducing its complexity without degrading reconstruction quality. By finetuning
pre-trained autoencoders with EQ-VAE, we enhance the performance of several
state-of-the-art generative models, including DiT, SiT, REPA and MaskGIT,
achieving a 7 speedup on DiT-XL/2 with only five epochs of SD-VAE fine-tuning.
EQ-VAE is compatible with both continuous and discrete autoencoders, thus
offering a versatile enhancement for a wide range of latent generative models.
Project page and code: https://eq-vae.github.io/.Summary
AI-Generated Summary