EQ-VAE: Espaço Latente Regularizado por Equivariância para Melhor Modelagem Generativa de Imagens
EQ-VAE: Equivariance Regularized Latent Space for Improved Generative Image Modeling
February 13, 2025
Autores: Theodoros Kouzelis, Ioannis Kakogeorgiou, Spyros Gidaris, Nikos Komodakis
cs.AI
Resumo
Modelos generativos latentes surgiram como uma abordagem líder para a síntese de imagens de alta qualidade. Esses modelos dependem de um autoencoder para comprimir imagens em um espaço latente, seguido por um modelo generativo para aprender a distribuição latente. Identificamos que os autoencoders existentes carecem de equivariância em relação a transformações que preservam a semântica, como escalonamento e rotação, resultando em espaços latentes complexos que prejudicam o desempenho generativo. Para resolver isso, propomos o EQ-VAE, uma abordagem simples de regularização que impõe equivariância no espaço latente, reduzindo sua complexidade sem degradar a qualidade da reconstrução. Ao ajustar finamente autoencoders pré-treinados com o EQ-VAE, melhoramos o desempenho de vários modelos generativos de ponta, incluindo DiT, SiT, REPA e MaskGIT, alcançando uma aceleração de 7 vezes no DiT-XL/2 com apenas cinco épocas de ajuste fino do SD-VAE. O EQ-VAE é compatível com autoencoders contínuos e discretos, oferecendo assim um aprimoramento versátil para uma ampla gama de modelos generativos latentes. Página do projeto e código: https://eq-vae.github.io/.
English
Latent generative models have emerged as a leading approach for high-quality
image synthesis. These models rely on an autoencoder to compress images into a
latent space, followed by a generative model to learn the latent distribution.
We identify that existing autoencoders lack equivariance to semantic-preserving
transformations like scaling and rotation, resulting in complex latent spaces
that hinder generative performance. To address this, we propose EQ-VAE, a
simple regularization approach that enforces equivariance in the latent space,
reducing its complexity without degrading reconstruction quality. By finetuning
pre-trained autoencoders with EQ-VAE, we enhance the performance of several
state-of-the-art generative models, including DiT, SiT, REPA and MaskGIT,
achieving a 7 speedup on DiT-XL/2 with only five epochs of SD-VAE fine-tuning.
EQ-VAE is compatible with both continuous and discrete autoencoders, thus
offering a versatile enhancement for a wide range of latent generative models.
Project page and code: https://eq-vae.github.io/.Summary
AI-Generated Summary