ChatPaper.aiChatPaper

潜在拡散モデルのブースト:分離表現アラインメントによるアプローチ

Boosting Latent Diffusion Models via Disentangled Representation Alignment

January 9, 2026
著者: John Page, Xuesong Niu, Kai Wu, Kun Gai
cs.AI

要旨

潜在拡散モデル(LDM)は、通常は変分オートエンコーダ(VAE)などの画像トークナイザーを通じて得られる圧縮された潜在空間で動作することで、高品質な画像を生成する。生成に適したVAEを追求するため、最近の研究では、LDMで一般的に採用されているアプローチと同様に、視覚基盤モデル(VFM)をVAEの表現アライメント目標として活用することが検討されている。これにより一定の性能向上が得られるものの、VAEとLDMの両方に同じアライメント目標を使用することは、それらが本質的に異なる表現要件を有することを見落としている。我々は、LDMが高レベルな意味概念を保持する潜在表現から恩恵を受ける一方で、VAEは意味的分散表現に優れ、属性レベルの情報を構造化された方法で符号化できるべきであると主張する。この問題に対処するため、我々は意味的分散VAE(Send-VAE)を提案する。これは、事前学習済みVFMの意味的階層構造と潜在空間を整合させることで、分散表現学習に最適化されたものである。本手法では、非線形マッパーネットワークを用いてVAEの潜在表現を変換し、VFMと整合させることで、属性レベルの分散表現と高レベル意味概念の間のギャップを埋め、VAE学習に対する効果的なガイダンスを可能にする。我々は、属性予測タスクにおける線形 probing により意味的分散表現を評価し、生成性能の向上との強い相関を示す。最後に、Send-VAEを用いてフローベースのトランスフォーマーSiTを学習し、ImageNet 256x256において、分類器不要指導の有無にかかわらず、それぞれ1.21および1.75という最先端のFIDを達成するとともに、学習を大幅に高速化することを実験的に示す。
English
Latent Diffusion Models (LDMs) generate high-quality images by operating in a compressed latent space, typically obtained through image tokenizers such as Variational Autoencoders (VAEs). In pursuit of a generation-friendly VAE, recent studies have explored leveraging Vision Foundation Models (VFMs) as representation alignment targets for VAEs, mirroring the approach commonly adopted for LDMs. Although this yields certain performance gains, using the same alignment target for both VAEs and LDMs overlooks their fundamentally different representational requirements. We advocate that while LDMs benefit from latents retaining high-level semantic concepts, VAEs should excel in semantic disentanglement, enabling encoding of attribute-level information in a structured way. To address this, we propose the Semantic disentangled VAE (Send-VAE), explicitly optimized for disentangled representation learning through aligning its latent space with the semantic hierarchy of pre-trained VFMs. Our approach employs a non-linear mapper network to transform VAE latents, aligning them with VFMs to bridge the gap between attribute-level disentanglement and high-level semantics, facilitating effective guidance for VAE learning. We evaluate semantic disentanglement via linear probing on attribute prediction tasks, showing strong correlation with improved generation performance. Finally, using Send-VAE, we train flow-based transformers SiTs; experiments show Send-VAE significantly speeds up training and achieves a state-of-the-art FID of 1.21 and 1.75 with and without classifier-free guidance on ImageNet 256x256.
PDF173January 31, 2026