EQ-VAE: Espacio Latente Regularizado por Equivariancia para una Mejor Modelización Generativa de Imágenes
EQ-VAE: Equivariance Regularized Latent Space for Improved Generative Image Modeling
February 13, 2025
Autores: Theodoros Kouzelis, Ioannis Kakogeorgiou, Spyros Gidaris, Nikos Komodakis
cs.AI
Resumen
Los modelos generativos latentes han surgido como un enfoque líder para la síntesis de imágenes de alta calidad. Estos modelos dependen de un autoencoder para comprimir las imágenes en un espacio latente, seguido de un modelo generativo que aprende la distribución latente. Identificamos que los autoencoders existentes carecen de equivariancia frente a transformaciones que preservan la semántica, como el escalado y la rotación, lo que resulta en espacios latentes complejos que dificultan el rendimiento generativo. Para abordar esto, proponemos EQ-VAE, un enfoque de regularización simple que impone equivariancia en el espacio latente, reduciendo su complejidad sin degradar la calidad de la reconstrucción. Al ajustar autoencoders preentrenados con EQ-VAE, mejoramos el rendimiento de varios modelos generativos de vanguardia, incluyendo DiT, SiT, REPA y MaskGIT, logrando una aceleración de 7 veces en DiT-XL/2 con solo cinco épocas de ajuste fino de SD-VAE. EQ-VAE es compatible tanto con autoencoders continuos como discretos, ofreciendo así una mejora versátil para una amplia gama de modelos generativos latentes. Página del proyecto y código: https://eq-vae.github.io/.
English
Latent generative models have emerged as a leading approach for high-quality
image synthesis. These models rely on an autoencoder to compress images into a
latent space, followed by a generative model to learn the latent distribution.
We identify that existing autoencoders lack equivariance to semantic-preserving
transformations like scaling and rotation, resulting in complex latent spaces
that hinder generative performance. To address this, we propose EQ-VAE, a
simple regularization approach that enforces equivariance in the latent space,
reducing its complexity without degrading reconstruction quality. By finetuning
pre-trained autoencoders with EQ-VAE, we enhance the performance of several
state-of-the-art generative models, including DiT, SiT, REPA and MaskGIT,
achieving a 7 speedup on DiT-XL/2 with only five epochs of SD-VAE fine-tuning.
EQ-VAE is compatible with both continuous and discrete autoencoders, thus
offering a versatile enhancement for a wide range of latent generative models.
Project page and code: https://eq-vae.github.io/.Summary
AI-Generated Summary