ChatPaper.aiChatPaper

分布マッチング変分オートエンコーダ

Distribution Matching Variational AutoEncoder

December 8, 2025
著者: Sen Ye, Jianning Pei, Mengde Xu, Shuyang Gu, Chunyu Wang, Liwei Wang, Han Hu
cs.AI

要旨

視覚生成モデルの多くは、拡散や自己回帰モデリングを適用する前に画像を潜在空間に圧縮する。しかし、VAEや基盤モデルに連携したエンコーダーなどの既存手法は、潜在分布の構造を明示的に形成せずに潜在空間を暗黙的に制約するため、どのような分布がモデリングに最適かが不明確である。本研究では、分布マッチング制約を介してエンコーダーの潜在分布を任意の参照分布と明示的に整合させるDistribution-Matching VAE(DMVAE)を提案する。これは従来のVAEのガウス事前分布を超えて一般化し、自己教師あり特徴や拡散ノイズ、その他の事前分布から導出された分布との整合を可能にする。DMVAEを用いることで、どの潜在分布がモデリングに適しているかを系統的に調査でき、自己教師あり学習から導出された分布が再構成忠実度とモデリング効率の優れたバランスを提供することを発見した(ImageNetにおいて学習エポック数64のみでgFID 3.2を達成)。我々の結果は、固定された事前分布に依存するのではなく、適切な潜在分布構造を選択すること(分布レベルでの整合を通じて実現)が、モデリング容易な潜在表現と高忠実度画像合成の間のギャップを埋める鍵であることを示唆する。コードはhttps://github.com/sen-ye/dmvaeで公開されている。
English
Most visual generative models compress images into a latent space before applying diffusion or autoregressive modelling. Yet, existing approaches such as VAEs and foundation model aligned encoders implicitly constrain the latent space without explicitly shaping its distribution, making it unclear which types of distributions are optimal for modeling. We introduce Distribution-Matching VAE (DMVAE), which explicitly aligns the encoder's latent distribution with an arbitrary reference distribution via a distribution matching constraint. This generalizes beyond the Gaussian prior of conventional VAEs, enabling alignment with distributions derived from self-supervised features, diffusion noise, or other prior distributions. With DMVAE, we can systematically investigate which latent distributions are more conducive to modeling, and we find that SSL-derived distributions provide an excellent balance between reconstruction fidelity and modeling efficiency, reaching gFID equals 3.2 on ImageNet with only 64 training epochs. Our results suggest that choosing a suitable latent distribution structure (achieved via distribution-level alignment), rather than relying on fixed priors, is key to bridging the gap between easy-to-model latents and high-fidelity image synthesis. Code is avaliable at https://github.com/sen-ye/dmvae.
PDF192December 10, 2025