EQ-VAE: Equivariantie-geregulariseerde latente ruimte voor verbeterd generatief beeldmodelleren

Samenvatting

Latente generatieve modellen zijn naar voren gekomen als een toonaangevende aanpak voor hoogwaardige beeldgeneratie. Deze modellen maken gebruik van een auto-encoder om afbeeldingen te comprimeren in een latente ruimte, gevolgd door een generatief model om de latente verdeling te leren. Wij constateren dat bestaande auto-encoders geen equivariantie vertonen ten opzichte van semantiekbehoudende transformaties zoals schaling en rotatie, wat resulteert in complexe latente ruimtes die de generatieve prestaties belemmeren. Om dit aan te pakken, stellen wij EQ-VAE voor, een eenvoudige regularisatiebenadering die equivariantie in de latente ruimte afdwingt, waardoor de complexiteit ervan wordt verminderd zonder de reconstructiekwaliteit te verslechteren. Door vooraf getrainde auto-encoders te finetunen met EQ-VAE, verbeteren we de prestaties van verschillende state-of-the-art generatieve modellen, waaronder DiT, SiT, REPA en MaskGIT, en behalen we een 7x versnelling op DiT-XL/2 met slechts vijf epochs van SD-VAE finetuning. EQ-VAE is compatibel met zowel continue als discrete auto-encoders, waardoor het een veelzijdige verbetering biedt voor een breed scala aan latente generatieve modellen. Projectpagina en code: https://eq-vae.github.io/.

English

Latent generative models have emerged as a leading approach for high-quality image synthesis. These models rely on an autoencoder to compress images into a latent space, followed by a generative model to learn the latent distribution. We identify that existing autoencoders lack equivariance to semantic-preserving transformations like scaling and rotation, resulting in complex latent spaces that hinder generative performance. To address this, we propose EQ-VAE, a simple regularization approach that enforces equivariance in the latent space, reducing its complexity without degrading reconstruction quality. By finetuning pre-trained autoencoders with EQ-VAE, we enhance the performance of several state-of-the-art generative models, including DiT, SiT, REPA and MaskGIT, achieving a 7 speedup on DiT-XL/2 with only five epochs of SD-VAE fine-tuning. EQ-VAE is compatible with both continuous and discrete autoencoders, thus offering a versatile enhancement for a wide range of latent generative models. Project page and code: https://eq-vae.github.io/.

EQ-VAE: Equivariantie-geregulariseerde latente ruimte voor verbeterd generatief beeldmodelleren

EQ-VAE: Equivariance Regularized Latent Space for Improved Generative Image Modeling

Samenvatting

Support