拡散に適した潜在多様体にとって重要な要素は何か?潜在拡散のための事前分布整合オートエンコーダ
What Matters for Diffusion-Friendly Latent Manifold? Prior-Aligned Autoencoders for Latent Diffusion
May 8, 2026
著者: Zhengrong Yue, Taihang Hu, Mengting Chen, Haiyu Zhang, Zihao Pan, Tao Liu, Zikang Wang, Jinsong Lan, Xiaoyong Zhu, Bo Zheng, Yali Wang
cs.AI
要旨
トークナイザーは潜在拡散モデルにおいて重要な構成要素であり、拡散モデルが動作する潜在空間を定義する。しかし、既存のトークナイザーは主に再構成忠実度の向上や事前学習済み表現の継承を目的として設計されており、どのような潜在空間が生成モデリングにとって真に親和性が高いかは不明のままである。本稿では、潜在多様体の組織化の観点からこの問題を研究する。制御されたトークナイザーの変種を構築することにより、拡散モデルに親和性の高い潜在多様体の三つの主要な性質、すなわち、一貫した空間構造、局所的多様体連続性、および大域的多様体セマンティクスを同定する。これらの性質は、再構成忠実度よりも下流の生成品質とより整合性が高いことがわかる。この知見に動機づけられ、我々はPrior-Aligned AutoEncoder(PAE)を提案する。PAEは、拡散モデルに親和性の高い多様体を再構成や継承から間接的に出現させるのではなく、潜在多様体を明示的に整形する。具体的には、PAEはVFMから得られた洗練された事前分布と摂動ベースの正則化を活用し、空間構造、局所連続性、および大域セマンティクスを明示的な学習目標に変換する。ImageNet 256x256において、PAEは既存のトークナイザーと比較して学習効率と生成品質の両方を向上させ、同一の学習設定で最大13倍高速な収束でRAEに匹敵する性能を達成し、新たな最先端gFID 1.03を記録する。これらの結果は、潜在拡散モデルにおける潜在多様体の組織化の重要性を強調するものである。
English
Tokenizers are a crucial component of latent diffusion models, as they define the latent space in which diffusion models operate. However, existing tokenizers are primarily designed to improve reconstruction fidelity or inherit pretrained representations, leaving unclear what kind of latent space is truly friendly for generative modeling. In this paper, we study this question from the perspective of latent manifold organization. By constructing controlled tokenizer variants, we identify three key properties of a diffusion-friendly latent manifold: coherent spatial structure, local manifold continuity, and global manifold semantics. We find that these properties are more consistent with downstream generation quality than reconstruction fidelity. Motivated by this finding, we propose the Prior-Aligned AutoEncoder (PAE), which explicitly shapes the latent manifold instead of leaving diffusion-friendly manifold to emerge indirectly from reconstruction or inheritance. Specifically, PAE leverages refined priors derived from VFMs and perturbation-based regularization to turn spatial structure, local continuity, and global semantics into explicit training objectives. On ImageNet 256x256, PAE improves both training efficiency and generation quality over existing tokenizers, reaching performance comparable to RAE with up to 13x faster convergence under the same training setup and achieving a new state-of-the-art gFID of 1.03. These results highlight the importance of organizing the latent manifold for latent diffusion models.