ChatPaper.aiChatPaper

EQ-VAE: Äquivarianz-regulierter Latent Space für verbesserte generative Bildmodellierung

EQ-VAE: Equivariance Regularized Latent Space for Improved Generative Image Modeling

February 13, 2025
Autoren: Theodoros Kouzelis, Ioannis Kakogeorgiou, Spyros Gidaris, Nikos Komodakis
cs.AI

Zusammenfassung

Latente generative Modelle haben sich als führender Ansatz für hochwertige Bildsynthese etabliert. Diese Modelle nutzen einen Autoencoder, um Bilder in einen latenten Raum zu komprimieren, gefolgt von einem generativen Modell, das die latente Verteilung lernt. Wir stellen fest, dass bestehende Autoencoder keine Äquivarianz gegenüber semantikerhaltenden Transformationen wie Skalierung und Rotation aufweisen, was zu komplexen latenten Räumen führt, die die generative Leistung beeinträchtigen. Um dies zu beheben, schlagen wir EQ-VAE vor, einen einfachen Regularisierungsansatz, der Äquivarianz im latenten Raum erzwingt und dessen Komplexität reduziert, ohne die Rekonstruktionsqualität zu verschlechtern. Durch das Feinabstimmen vortrainierter Autoencoder mit EQ-VAE verbessern wir die Leistung mehrerer state-of-the-art generativer Modelle, darunter DiT, SiT, REPA und MaskGIT, und erreichen eine 7-fache Beschleunigung bei DiT-XL/2 mit nur fünf Epochen SD-VAE-Feintuning. EQ-VAE ist sowohl mit kontinuierlichen als auch diskreten Autoencodern kompatibel und bietet somit eine vielseitige Verbesserung für eine breite Palette latenter generativer Modelle. Projektseite und Code: https://eq-vae.github.io/.
English
Latent generative models have emerged as a leading approach for high-quality image synthesis. These models rely on an autoencoder to compress images into a latent space, followed by a generative model to learn the latent distribution. We identify that existing autoencoders lack equivariance to semantic-preserving transformations like scaling and rotation, resulting in complex latent spaces that hinder generative performance. To address this, we propose EQ-VAE, a simple regularization approach that enforces equivariance in the latent space, reducing its complexity without degrading reconstruction quality. By finetuning pre-trained autoencoders with EQ-VAE, we enhance the performance of several state-of-the-art generative models, including DiT, SiT, REPA and MaskGIT, achieving a 7 speedup on DiT-XL/2 with only five epochs of SD-VAE fine-tuning. EQ-VAE is compatible with both continuous and discrete autoencoders, thus offering a versatile enhancement for a wide range of latent generative models. Project page and code: https://eq-vae.github.io/.

Summary

AI-Generated Summary

PDF72February 18, 2025