Verteilungsabgleichs-Variationsautoencoder
Distribution Matching Variational AutoEncoder
December 8, 2025
papers.authors: Sen Ye, Jianning Pei, Mengde Xu, Shuyang Gu, Chunyu Wang, Liwei Wang, Han Hu
cs.AI
papers.abstract
Die meisten visuellen generativen Modelle komprimieren Bilder zunächst in einen latenten Raum, bevor sie Diffusion oder autoregressive Modellierung anwenden. Bisherige Ansätze wie VAEs und an Foundation-Models angepasste Encoder beschränken den latenten Raum jedoch implizit, ohne seine Verteilung explizit zu gestalten, sodass unklar bleibt, welche Verteilungstypen für die Modellierung optimal sind. Wir führen Distribution-Matching VAE (DMVAE) ein, das die latente Verteilung des Encoders explizit über eine Verteilungs-Matching-Bedingung mit einer beliebigen Referenzverteilung in Einklang bringt. Dies verallgemeinert den Gaußschen Prior konventioneller VAEs und ermöglicht die Ausrichtung an Verteilungen, die aus selbstüberwachten Merkmalen, Diffusionsrauschen oder anderen Prior-Verteilungen abgeleitet sind. Mit DMVAE können wir systematisch untersuchen, welche latenten Verteilungen förderlicher für die Modellierung sind. Wir stellen fest, dass SSL-abgeleitete Verteilungen eine hervorragende Balance zwischen Rekonstruktionstreue und Modellierungseffizienz bieten und auf ImageNet einen gFID-Wert von 3,2 nach nur 64 Trainingsepochen erreichen. Unsere Ergebnisse legen nahe, dass die Wahl einer geeigneten latenten Verteilungsstruktur (erreicht durch Verteilungs-Level-Alignment) – anstatt sich auf feste Priors zu verlassen – der Schlüssel ist, um die Lücke zwischen einfach modellierbaren latenten Variablen und hochwertiger Bildsynthese zu schließen. Der Code ist verfügbar unter https://github.com/sen-ye/dmvae.
English
Most visual generative models compress images into a latent space before applying diffusion or autoregressive modelling. Yet, existing approaches such as VAEs and foundation model aligned encoders implicitly constrain the latent space without explicitly shaping its distribution, making it unclear which types of distributions are optimal for modeling. We introduce Distribution-Matching VAE (DMVAE), which explicitly aligns the encoder's latent distribution with an arbitrary reference distribution via a distribution matching constraint. This generalizes beyond the Gaussian prior of conventional VAEs, enabling alignment with distributions derived from self-supervised features, diffusion noise, or other prior distributions. With DMVAE, we can systematically investigate which latent distributions are more conducive to modeling, and we find that SSL-derived distributions provide an excellent balance between reconstruction fidelity and modeling efficiency, reaching gFID equals 3.2 on ImageNet with only 64 training epochs. Our results suggest that choosing a suitable latent distribution structure (achieved via distribution-level alignment), rather than relying on fixed priors, is key to bridging the gap between easy-to-model latents and high-fidelity image synthesis. Code is avaliable at https://github.com/sen-ye/dmvae.