ChatPaper.aiChatPaper

Вариационный автокодировщик с согласованием распределений

Distribution Matching Variational AutoEncoder

December 8, 2025
Авторы: Sen Ye, Jianning Pei, Mengde Xu, Shuyang Gu, Chunyu Wang, Liwei Wang, Han Hu
cs.AI

Аннотация

Большинство визуальных генеративных моделей сжимают изображения в латентное пространство перед применением диффузионного или авторегрессионного моделирования. Однако существующие подходы, такие как VAEs и энкодеры, согласованные с фундаментальными моделями, неявно ограничивают латентное пространство без явного формирования его распределения, что делает неясным, какие типы распределений оптимальны для моделирования. Мы представляем VAE с согласованием распределений (DMVAE), который явно выравнивает латентное распределение энкодера с произвольным эталонным распределением посредством ограничения на соответствие распределений. Это обобщает гауссовский априорный закон традиционных VAEs, позволяя согласование с распределениями, полученными из самоконтролируемых признаков, диффузионного шума или других априорных распределений. С помощью DMVAE мы можем систематически исследовать, какие латентные распределения более благоприятны для моделирования, и мы обнаруживаем, что распределения, полученные методами самоконтролируемого обучения, обеспечивают превосходный баланс между точностью реконструкции и эффективностью моделирования, достигая gFID = 3.2 на ImageNet всего за 64 эпохи обучения. Наши результаты позволяют предположить, что выбор подходящей структуры латентного распределения (достигаемой через согласование на уровне распределений), а не reliance на фиксированные априорные законы, является ключом к сокращению разрыва между легко моделируемыми латентными переменными и синтезом изображений с высокой точностью. Код доступен по адресу https://github.com/sen-ye/dmvae.
English
Most visual generative models compress images into a latent space before applying diffusion or autoregressive modelling. Yet, existing approaches such as VAEs and foundation model aligned encoders implicitly constrain the latent space without explicitly shaping its distribution, making it unclear which types of distributions are optimal for modeling. We introduce Distribution-Matching VAE (DMVAE), which explicitly aligns the encoder's latent distribution with an arbitrary reference distribution via a distribution matching constraint. This generalizes beyond the Gaussian prior of conventional VAEs, enabling alignment with distributions derived from self-supervised features, diffusion noise, or other prior distributions. With DMVAE, we can systematically investigate which latent distributions are more conducive to modeling, and we find that SSL-derived distributions provide an excellent balance between reconstruction fidelity and modeling efficiency, reaching gFID equals 3.2 on ImageNet with only 64 training epochs. Our results suggest that choosing a suitable latent distribution structure (achieved via distribution-level alignment), rather than relying on fixed priors, is key to bridging the gap between easy-to-model latents and high-fidelity image synthesis. Code is avaliable at https://github.com/sen-ye/dmvae.
PDF192December 10, 2025