ChatPaper.aiChatPaper

Autoencoder Variacional de Emparejamiento de Distribución

Distribution Matching Variational AutoEncoder

December 8, 2025
Autores: Sen Ye, Jianning Pei, Mengde Xu, Shuyang Gu, Chunyu Wang, Liwei Wang, Han Hu
cs.AI

Resumen

La mayoría de los modelos generativos visuales comprimen las imágenes en un espacio latente antes de aplicar modelos de difusión o autorregresivos. Sin embargo, enfoques existentes como los VAEs y los codificadores alineados con modelos fundacionales restringen implícitamente el espacio latente sin dar forma explícita a su distribución, lo que hace que no esté claro qué tipos de distribuciones son óptimos para el modelado. Introducimos el VAE de Correspondencia de Distribuciones (DMVAE), que alinea explícitamente la distribución latente del codificador con una distribución de referencia arbitraria mediante una restricción de correspondencia de distribuciones. Esto generaliza más allá del prior gaussiano de los VAEs convencionales, permitiendo la alineación con distribuciones derivadas de características auto-supervisadas, ruido de difusión u otras distribuciones previas. Con DMVAE, podemos investigar sistemáticamente qué distribuciones latentes son más conducentes para el modelado, y encontramos que las distribuciones derivadas de SSL proporcionan un excelente equilibrio entre fidelidad de reconstrucción y eficiencia de modelado, alcanzando un gFID igual a 3.2 en ImageNet con solo 64 épocas de entrenamiento. Nuestros resultados sugieren que elegir una estructura de distribución latente adecuada (lograda mediante una alineación a nivel de distribución), en lugar de depender de distribuciones previas fijas, es clave para cerrar la brecha entre los latentes fáciles de modelar y la síntesis de imágenes de alta fidelidad. El código está disponible en https://github.com/sen-ye/dmvae.
English
Most visual generative models compress images into a latent space before applying diffusion or autoregressive modelling. Yet, existing approaches such as VAEs and foundation model aligned encoders implicitly constrain the latent space without explicitly shaping its distribution, making it unclear which types of distributions are optimal for modeling. We introduce Distribution-Matching VAE (DMVAE), which explicitly aligns the encoder's latent distribution with an arbitrary reference distribution via a distribution matching constraint. This generalizes beyond the Gaussian prior of conventional VAEs, enabling alignment with distributions derived from self-supervised features, diffusion noise, or other prior distributions. With DMVAE, we can systematically investigate which latent distributions are more conducive to modeling, and we find that SSL-derived distributions provide an excellent balance between reconstruction fidelity and modeling efficiency, reaching gFID equals 3.2 on ImageNet with only 64 training epochs. Our results suggest that choosing a suitable latent distribution structure (achieved via distribution-level alignment), rather than relying on fixed priors, is key to bridging the gap between easy-to-model latents and high-fidelity image synthesis. Code is avaliable at https://github.com/sen-ye/dmvae.
PDF192December 10, 2025