ChatPaper.aiChatPaper

意味論が道を導く:非同期潜在拡散による意味的モデリングとテクスチャモデリングの調和

Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent Diffusion

December 4, 2025
著者: Yueming Pan, Ruoyu Feng, Qi Dai, Yuqi Wang, Wenfeng Lin, Mingyu Guo, Chong Luo, Nanning Zheng
cs.AI

要旨

潜在拡散モデル(LDM)は本質的に粗い生成から細かい生成へのプロセスをたどり、高レベルな意味構造が微細なテクスチャよりもわずかに早く生成される。これは、先行する意味情報がセマンティックアンカーを提供することでテクスチャ生成に寄与する可能性を示唆している。最近の進歩では、事前学習済み視覚エンコーダから意味的先行知識を統合してLDMを強化する手法が登場しているが、それらは依然として意味情報とVAEで符号化されたテクスチャを同期してノイズ除去しており、この順序関係を無視している。この観察に基づき、我々は意味形成を明示的に優先する潜在拡散パラダイム「Semantic-First Diffusion(SFD)」を提案する。SFDはまず、専用のSemantic VAEを介して事前学習済み視覚エンコーダから抽出したコンパクトな意味潜在変数とテクスチャ潜在変数を組み合わせて複合潜在変数を構築する。SFDの中核は、意味潜在変数とテクスチャ潜在変数を異なるノイズスケジュールで非同期にノイズ除去することである:意味情報はテクスチャに対して時間的なオフセットで先行し、テクスチャ精製により明確な高レベルガイダンスを提供し、自然な粗い生成から細かい生成への移行を可能にする。ImageNet 256×256におけるガイダンス付き生成では、SFDはFID 1.06(LightningDiT-XL)およびFID 1.04(1.0B LightningDiT-XXL)を達成し、オリジナルのDiTと比べて最大100倍の高速収束を実現した。SFDはReDiやVA-VAEなどの既存手法も改善し、非同期で意味主導のモデリングの有効性を実証している。プロジェクトページとコード:https://yuemingpan.github.io/SFD.github.io/
English
Latent Diffusion Models (LDMs) inherently follow a coarse-to-fine generation process, where high-level semantic structure is generated slightly earlier than fine-grained texture. This indicates the preceding semantics potentially benefit texture generation by providing a semantic anchor. Recent advances have integrated semantic priors from pretrained visual encoders to further enhance LDMs, yet they still denoise semantic and VAE-encoded texture synchronously, neglecting such ordering. Observing these, we propose Semantic-First Diffusion (SFD), a latent diffusion paradigm that explicitly prioritizes semantic formation. SFD first constructs composite latents by combining a compact semantic latent, which is extracted from a pretrained visual encoder via a dedicated Semantic VAE, with the texture latent. The core of SFD is to denoise the semantic and texture latents asynchronously using separate noise schedules: semantics precede textures by a temporal offset, providing clearer high-level guidance for texture refinement and enabling natural coarse-to-fine generation. On ImageNet 256x256 with guidance, SFD achieves FID 1.06 (LightningDiT-XL) and FID 1.04 (1.0B LightningDiT-XXL), while achieving up to 100x faster convergence than the original DiT. SFD also improves existing methods like ReDi and VA-VAE, demonstrating the effectiveness of asynchronous, semantics-led modeling. Project page and code: https://yuemingpan.github.io/SFD.github.io/.
PDF261December 6, 2025