EQ-VAE: Spazio Latente Regolarizzato per l'Equivarianza per un Miglior Modellamento Generativo di Immagini
EQ-VAE: Equivariance Regularized Latent Space for Improved Generative Image Modeling
February 13, 2025
Autori: Theodoros Kouzelis, Ioannis Kakogeorgiou, Spyros Gidaris, Nikos Komodakis
cs.AI
Abstract
I modelli generativi latenti sono emersi come un approccio leader per la sintesi di immagini di alta qualità. Questi modelli si basano su un autoencoder per comprimere le immagini in uno spazio latente, seguito da un modello generativo per apprendere la distribuzione latente. Identifichiamo che gli autoencoder esistenti mancano di equivarianza rispetto a trasformazioni che preservano la semantica, come il ridimensionamento e la rotazione, risultando in spazi latenti complessi che ostacolano le prestazioni generative. Per affrontare questo problema, proponiamo EQ-VAE, un semplice approccio di regolarizzazione che impone l'equivarianza nello spazio latente, riducendone la complessità senza compromettere la qualità della ricostruzione. Ottimizzando autoencoder pre-addestrati con EQ-VAE, miglioriamo le prestazioni di diversi modelli generativi all'avanguardia, tra cui DiT, SiT, REPA e MaskGIT, ottenendo un'accelerazione di 7 volte su DiT-XL/2 con solo cinque epoche di fine-tuning su SD-VAE. EQ-VAE è compatibile sia con autoencoder continui che discreti, offrendo così un miglioramento versatile per un'ampia gamma di modelli generativi latenti. Pagina del progetto e codice: https://eq-vae.github.io/.
English
Latent generative models have emerged as a leading approach for high-quality
image synthesis. These models rely on an autoencoder to compress images into a
latent space, followed by a generative model to learn the latent distribution.
We identify that existing autoencoders lack equivariance to semantic-preserving
transformations like scaling and rotation, resulting in complex latent spaces
that hinder generative performance. To address this, we propose EQ-VAE, a
simple regularization approach that enforces equivariance in the latent space,
reducing its complexity without degrading reconstruction quality. By finetuning
pre-trained autoencoders with EQ-VAE, we enhance the performance of several
state-of-the-art generative models, including DiT, SiT, REPA and MaskGIT,
achieving a 7 speedup on DiT-XL/2 with only five epochs of SD-VAE fine-tuning.
EQ-VAE is compatible with both continuous and discrete autoencoders, thus
offering a versatile enhancement for a wide range of latent generative models.
Project page and code: https://eq-vae.github.io/.Summary
AI-Generated Summary