ChatPaper.aiChatPaper

意味論的ルーティング:拡散トランスフォーマーのための多層LLM特徴量重み付けの探求

Semantic Routing: Exploring Multi-Layer LLM Feature Weighting for Diffusion Transformers

February 3, 2026
著者: Bozhou Li, Yushuo Guan, Haolin Li, Bohan Zeng, Yiyan Ji, Yue Ding, Pengfei Wan, Kun Gai, Yuanxing Zhang, Wentao Zhang
cs.AI

要旨

近年のDiTベースのテキスト画像生成モデルでは、LLMをテキストエンコーダとして採用するケースが増加している。しかし、LLM層間には顕著な意味的階層が存在し、拡散時間とネットワーク深度の両方にわたって非定常的なノイズ除去ダイナミクスが観察されるにもかかわらず、テキスト条件付けは静的な手法が主流であり、単一のLLM層のみを利用する場合が多い。DiTの生成過程の動的性質により適合させ、拡散モデルの生成能力を向上させるため、本論文では軽量なゲートを備えた統一正規化凸融合フレームワークを提案する。この枠組みにより、時間的融合、深度方向融合、および両者を組み合わせた融合を通じて、多層LLM隠れ状態を体系的に統合する。実験により、深度方向意味ルーティングが優れた条件付け戦略であることが確認され、テキストと画像の一貫性および構成的生成能力(例:GenAI-Bench Countingタスクで+9.97向上)が一貫して改善された。逆に、純粋な時間的融合は視覚的生成の忠実度を低下させる逆説的な結果をもたらすことが判明した。この要因は、訓練と推論の軌跡の不一致にあると分析する。分類器不要ガイダンス下では、名目上の時間ステップが実効SNRを追跡できず、推論時に意味的にタイミングがずれた特徴注入が生じるためである。総合的に、深度方向ルーティングは強力かつ効果的なベースラインとして位置づけられ、ロバストな時間依存条件付けを実現するには軌跡を意識した信号が不可欠であることが明らかとなった。
English
Recent DiT-based text-to-image models increasingly adopt LLMs as text encoders, yet text conditioning remains largely static and often utilizes only a single LLM layer, despite pronounced semantic hierarchy across LLM layers and non-stationary denoising dynamics over both diffusion time and network depth. To better match the dynamic process of DiT generation and thereby enhance the diffusion model's generative capability, we introduce a unified normalized convex fusion framework equipped with lightweight gates to systematically organize multi-layer LLM hidden states via time-wise, depth-wise, and joint fusion. Experiments establish Depth-wise Semantic Routing as the superior conditioning strategy, consistently improving text-image alignment and compositional generation (e.g., +9.97 on the GenAI-Bench Counting task). Conversely, we find that purely time-wise fusion can paradoxically degrade visual generation fidelity. We attribute this to a train-inference trajectory mismatch: under classifier-free guidance, nominal timesteps fail to track the effective SNR, causing semantically mistimed feature injection during inference. Overall, our results position depth-wise routing as a strong and effective baseline and highlight the critical need for trajectory-aware signals to enable robust time-dependent conditioning.
PDF231February 6, 2026