ChatPaper.aiChatPaper

Distributie-afstemmende Variational AutoEncoder

Distribution Matching Variational AutoEncoder

December 8, 2025
Auteurs: Sen Ye, Jianning Pei, Mengde Xu, Shuyang Gu, Chunyu Wang, Liwei Wang, Han Hu
cs.AI

Samenvatting

De meeste visuele generatieve modellen comprimeren afbeeldingen in een latente ruimte voordat ze diffusie- of autoregressieve modellering toepassen. Toch leggen bestaande benaderingen zoals VAEs en encoders afgestemd op foundation-modellen impliciet beperkingen op aan de latente ruimte zonder de verdeling expliciet vorm te geven, waardoor onduidelijk is welke soorten verdelingen optimaal zijn voor modellering. Wij introduceren Distribution-Matching VAE (DMVAE), dat de latente verdeling van de encoder expliciet afstemt op een willekeurige referentieverdeling via een distributie-matching constraint. Dit generaliseert verder dan de Gaussiaanse prior van conventionele VAEs en maakt afstemming mogelijk met verdelingen afgeleid van zelf-gesuperviseerde kenmerken, diffusieruis of andere prior-verdelingen. Met DMVAE kunnen we systematisch onderzoeken welke latente verdelingen meer bevorderlijk zijn voor modellering, en wij vinden dat van SSL afgeleide verdelingen een uitstekende balans bieden tussen reconstructiegetrouwheid en modellerings-efficiëntie, met een gFID van 3.2 op ImageNet na slechts 64 trainingsepochs. Onze resultaten suggereren dat het kiezen van een geschikte latente distributiestructuur (bereikt via afstemming op distributieniveau), in plaats van te vertrouwen op vaste priors, de sleutel is om de kloof te overbruggen tussen gemakkelijk te modelleren latente representaties en hoogwaardige beeld-synthese. Code is beschikbaar op https://github.com/sen-ye/dmvae.
English
Most visual generative models compress images into a latent space before applying diffusion or autoregressive modelling. Yet, existing approaches such as VAEs and foundation model aligned encoders implicitly constrain the latent space without explicitly shaping its distribution, making it unclear which types of distributions are optimal for modeling. We introduce Distribution-Matching VAE (DMVAE), which explicitly aligns the encoder's latent distribution with an arbitrary reference distribution via a distribution matching constraint. This generalizes beyond the Gaussian prior of conventional VAEs, enabling alignment with distributions derived from self-supervised features, diffusion noise, or other prior distributions. With DMVAE, we can systematically investigate which latent distributions are more conducive to modeling, and we find that SSL-derived distributions provide an excellent balance between reconstruction fidelity and modeling efficiency, reaching gFID equals 3.2 on ImageNet with only 64 training epochs. Our results suggest that choosing a suitable latent distribution structure (achieved via distribution-level alignment), rather than relying on fixed priors, is key to bridging the gap between easy-to-model latents and high-fidelity image synthesis. Code is avaliable at https://github.com/sen-ye/dmvae.
PDF192December 10, 2025