EQ-VAE: Эквивариантно-регуляризованное латентное пространство для улучшенного генеративного моделирования изображений
EQ-VAE: Equivariance Regularized Latent Space for Improved Generative Image Modeling
February 13, 2025
Авторы: Theodoros Kouzelis, Ioannis Kakogeorgiou, Spyros Gidaris, Nikos Komodakis
cs.AI
Аннотация
Латентные генеративные модели стали ведущим подходом для синтеза изображений высокого качества. Эти модели используют автоэнкодер для сжатия изображений в латентное пространство, за которым следует генеративная модель, изучающая распределение в этом пространстве. Мы обнаружили, что существующие автоэнкодеры не обладают эквивариантностью к семантически сохраняющим преобразованиям, таким как масштабирование и вращение, что приводит к сложным латентным пространствам, ухудшающим генеративную производительность. Для решения этой проблемы мы предлагаем EQ-VAE — простой метод регуляризации, который обеспечивает эквивариантность в латентном пространстве, снижая его сложность без ухудшения качества реконструкции. Путем тонкой настройки предобученных автоэнкодеров с использованием EQ-VAE мы улучшаем производительность нескольких современных генеративных моделей, включая DiT, SiT, REPA и MaskGIT, достигая ускорения в 7 раз для DiT-XL/2 всего за пять эпох тонкой настройки SD-VAE. EQ-VAE совместим как с непрерывными, так и с дискретными автоэнкодерами, что делает его универсальным улучшением для широкого спектра латентных генеративных моделей. Страница проекта и код: https://eq-vae.github.io/.
English
Latent generative models have emerged as a leading approach for high-quality
image synthesis. These models rely on an autoencoder to compress images into a
latent space, followed by a generative model to learn the latent distribution.
We identify that existing autoencoders lack equivariance to semantic-preserving
transformations like scaling and rotation, resulting in complex latent spaces
that hinder generative performance. To address this, we propose EQ-VAE, a
simple regularization approach that enforces equivariance in the latent space,
reducing its complexity without degrading reconstruction quality. By finetuning
pre-trained autoencoders with EQ-VAE, we enhance the performance of several
state-of-the-art generative models, including DiT, SiT, REPA and MaskGIT,
achieving a 7 speedup on DiT-XL/2 with only five epochs of SD-VAE fine-tuning.
EQ-VAE is compatible with both continuous and discrete autoencoders, thus
offering a versatile enhancement for a wide range of latent generative models.
Project page and code: https://eq-vae.github.io/.Summary
AI-Generated Summary