Autoencoder Variacional com Correspondência de Distribuição

Resumo

A maioria dos modelos generativos visuais comprime imagens em um espaço latente antes de aplicar modelagem difusiva ou autoregressiva. No entanto, abordagens existentes, como VAEs e codificadores alinhados a modelos de base, restringem implicitamente o espaço latente sem moldar explicitamente sua distribuição, tornando incerto quais tipos de distribuições são ótimas para a modelagem. Apresentamos o VAE de Correspondência de Distribuição (DMVAE), que alinha explicitamente a distribuição latente do codificador com uma distribuição de referência arbitrária por meio de uma restrição de correspondência de distribuição. Isso generaliza além do prior Gaussiano dos VAEs convencionais, permitindo o alinhamento com distribuições derivadas de características auto-supervisionadas, ruído de difusão ou outras distribuições prévias. Com o DMVAE, podemos investigar sistematicamente quais distribuições latentes são mais propícias para a modelagem, e descobrimos que as distribuições derivadas de SSL fornecem um excelente equilíbrio entre fidelidade de reconstrução e eficiência de modelagem, atingindo gFID igual a 3.2 no ImageNet com apenas 64 épocas de treinamento. Nossos resultados sugerem que escolher uma estrutura de distribuição latente adequada (conseguida via alinhamento a nível de distribuição), em vez de depender de priores fixos, é a chave para preencher a lacuna entre latentes fáceis de modelar e a síntese de imagens de alta fidelidade. O código está disponível em https://github.com/sen-ye/dmvae.

English

Most visual generative models compress images into a latent space before applying diffusion or autoregressive modelling. Yet, existing approaches such as VAEs and foundation model aligned encoders implicitly constrain the latent space without explicitly shaping its distribution, making it unclear which types of distributions are optimal for modeling. We introduce Distribution-Matching VAE (DMVAE), which explicitly aligns the encoder's latent distribution with an arbitrary reference distribution via a distribution matching constraint. This generalizes beyond the Gaussian prior of conventional VAEs, enabling alignment with distributions derived from self-supervised features, diffusion noise, or other prior distributions. With DMVAE, we can systematically investigate which latent distributions are more conducive to modeling, and we find that SSL-derived distributions provide an excellent balance between reconstruction fidelity and modeling efficiency, reaching gFID equals 3.2 on ImageNet with only 64 training epochs. Our results suggest that choosing a suitable latent distribution structure (achieved via distribution-level alignment), rather than relying on fixed priors, is key to bridging the gap between easy-to-model latents and high-fidelity image synthesis. Code is avaliable at https://github.com/sen-ye/dmvae.

Autoencoder Variacional com Correspondência de Distribuição

Distribution Matching Variational AutoEncoder

Resumo

Support