ChatPaper.aiChatPaper

Autoencodeur variationnel par correspondance de distribution

Distribution Matching Variational AutoEncoder

December 8, 2025
papers.authors: Sen Ye, Jianning Pei, Mengde Xu, Shuyang Gu, Chunyu Wang, Liwei Wang, Han Hu
cs.AI

papers.abstract

La plupart des modèles génératifs visuels compriment les images dans un espace latent avant d'appliquer une modélisation par diffusion ou autorégressive. Pourtant, les approches existantes telles que les VAE et les encodeurs alignés sur les modèles fondateurs contraignent implicitement l'espace latent sans façonner explicitement sa distribution, rendant incertain le type de distribution optimal pour la modélisation. Nous présentons le VAE à Appariement de Distribution (DMVAE), qui aligne explicitement la distribution latente de l'encodeur avec une distribution de référence arbitraire via une contrainte d'appariement de distribution. Cela généralise au-delà de l'a priori gaussien des VAE conventionnels, permettant un alignement avec des distributions dérivées de caractéristiques auto-supervisées, du bruit de diffusion, ou d'autres distributions a priori. Avec DMVAE, nous pouvons étudier systématiquement quelles distributions latentes sont plus propices à la modélisation, et nous constatons que les distributions dérivées de l'auto-supervision offrent un excellent équilibre entre fidélité de reconstruction et efficacité de modélisation, atteignant un gFID de 3.2 sur ImageNet avec seulement 64 époques d'entraînement. Nos résultats suggèrent que le choix d'une structure de distribution latente appropriée (obtenue via un alignement au niveau distributionnel), plutôt que de compter sur des a priori fixes, est essentiel pour combler l'écart entre des latentes faciles à modéliser et une synthèse d'images de haute fidélité. Le code est disponible à l'adresse https://github.com/sen-ye/dmvae.
English
Most visual generative models compress images into a latent space before applying diffusion or autoregressive modelling. Yet, existing approaches such as VAEs and foundation model aligned encoders implicitly constrain the latent space without explicitly shaping its distribution, making it unclear which types of distributions are optimal for modeling. We introduce Distribution-Matching VAE (DMVAE), which explicitly aligns the encoder's latent distribution with an arbitrary reference distribution via a distribution matching constraint. This generalizes beyond the Gaussian prior of conventional VAEs, enabling alignment with distributions derived from self-supervised features, diffusion noise, or other prior distributions. With DMVAE, we can systematically investigate which latent distributions are more conducive to modeling, and we find that SSL-derived distributions provide an excellent balance between reconstruction fidelity and modeling efficiency, reaching gFID equals 3.2 on ImageNet with only 64 training epochs. Our results suggest that choosing a suitable latent distribution structure (achieved via distribution-level alignment), rather than relying on fixed priors, is key to bridging the gap between easy-to-model latents and high-fidelity image synthesis. Code is avaliable at https://github.com/sen-ye/dmvae.
PDF192December 10, 2025