Autoencoder Variazionale con Corrispondenza delle Distribuzioni
Distribution Matching Variational AutoEncoder
December 8, 2025
Autori: Sen Ye, Jianning Pei, Mengde Xu, Shuyang Gu, Chunyu Wang, Liwei Wang, Han Hu
cs.AI
Abstract
La maggior parte dei modelli generativi visivi comprime le immagini in uno spazio latente prima di applicare modellazione diffusion o autoregressiva. Tuttavia, approcci esistenti come le VAE e gli encoder allineati ai modelli di base vincolano implicitamente lo spazio latente senza modellarne esplicitamente la distribuzione, rendendo poco chiaro quali tipi di distribuzioni siano ottimali per la modellazione. Introduciamo la VAE a corrispondenza di distribuzione (DMVAE), che allinea esplicitamente la distribuzione latente dell'encoder con una distribuzione di riferimento arbitraria tramite un vincolo di corrispondenza distributiva. Ciò generalizza oltre il prior gaussiano delle VAE convenzionali, consentendo l'allineamento con distribuzioni derivate da feature auto-supervisionate, rumore diffusion o altri distributioni precedenti. Con DMVAE, possiamo investigare sistematicamente quali distribuzioni latenti siano più favorevoli alla modellazione, e scopriamo che le distribuzioni derivate da SSL offrono un eccellente equilibrio tra fedeltà di ricostruzione ed efficienza di modellazione, raggiungendo un gFID pari a 3.2 su ImageNet con soli 64 epoche di addestramento. I nostri risultati suggeriscono che la scelta di una struttura di distribuzione latente adeguata (ottenuta tramite allineamento a livello distributivo), piuttosto che l'affidamento a priori fissi, sia la chiave per colmare il divario tra latenti facili da modellare e sintesi di immagini ad alta fedeltà. Il codice è disponibile su https://github.com/sen-ye/dmvae.
English
Most visual generative models compress images into a latent space before applying diffusion or autoregressive modelling. Yet, existing approaches such as VAEs and foundation model aligned encoders implicitly constrain the latent space without explicitly shaping its distribution, making it unclear which types of distributions are optimal for modeling. We introduce Distribution-Matching VAE (DMVAE), which explicitly aligns the encoder's latent distribution with an arbitrary reference distribution via a distribution matching constraint. This generalizes beyond the Gaussian prior of conventional VAEs, enabling alignment with distributions derived from self-supervised features, diffusion noise, or other prior distributions. With DMVAE, we can systematically investigate which latent distributions are more conducive to modeling, and we find that SSL-derived distributions provide an excellent balance between reconstruction fidelity and modeling efficiency, reaching gFID equals 3.2 on ImageNet with only 64 training epochs. Our results suggest that choosing a suitable latent distribution structure (achieved via distribution-level alignment), rather than relying on fixed priors, is key to bridging the gap between easy-to-model latents and high-fidelity image synthesis. Code is avaliable at https://github.com/sen-ye/dmvae.