DDT: 分離拡散トランスフォーマー
DDT: Decoupled Diffusion Transformer
April 8, 2025
著者: Shuai Wang, Zhi Tian, Weilin Huang, Limin Wang
cs.AI
要旨
拡散トランスフォーマーは優れた生成品質を実証しているものの、より長い訓練イテレーションと多数の推論ステップを必要とします。各ノイズ除去ステップにおいて、拡散トランスフォーマーはノイズの多い入力をエンコードして低周波の意味成分を抽出し、その後、同一のモジュールで高周波成分をデコードします。このスキームは、低周波の意味をエンコードするには高周波成分を削減する必要があるという、意味エンコードと高周波デコードの間の緊張関係を生み出す固有の最適化ジレンマを引き起こします。この課題を解決するため、我々は新しい\color{ddtD}分離型\color{ddtD}拡散\color{ddtT}トランスフォーマー(\color{ddtDDT})を提案します。これは、意味抽出のための専用の条件エンコーダと特殊化された速度デコーダを分離した設計を採用しています。我々の実験では、より大規模なエンコーダがモデルサイズの増加に伴い性能向上をもたらすことが明らかになりました。ImageNet 256×256において、我々のDDT-XL/2は{1.31 FID}という新たな最先端の性能を達成し(従来の拡散トランスフォーマーと比較して約4倍の訓練収束速度を実現)、ImageNet 512×512では1.28 FIDという新たな最先端の性能を達成しました。さらに、有益な副産物として、我々の分離型アーキテクチャは、隣接するノイズ除去ステップ間で自己条件を共有することで推論速度を向上させます。性能低下を最小限に抑えるため、我々は最適な共有戦略を特定するための新しい統計的動的計画法アプローチを提案します。
English
Diffusion transformers have demonstrated remarkable generation quality,
albeit requiring longer training iterations and numerous inference steps. In
each denoising step, diffusion transformers encode the noisy inputs to extract
the lower-frequency semantic component and then decode the higher frequency
with identical modules. This scheme creates an inherent optimization dilemma:
encoding low-frequency semantics necessitates reducing high-frequency
components, creating tension between semantic encoding and high-frequency
decoding. To resolve this challenge, we propose a new
\color{ddtD}ecoupled \color{ddtD}iffusion
\color{ddtT}ransformer~(\color{ddtDDT}), with a decoupled
design of a dedicated condition encoder for semantic extraction alongside a
specialized velocity decoder. Our experiments reveal that a more substantial
encoder yields performance improvements as model size increases. For ImageNet
256times256, Our DDT-XL/2 achieves a new state-of-the-art performance of
{1.31 FID}~(nearly 4times faster training convergence compared to previous
diffusion transformers). For ImageNet 512times512, Our DDT-XL/2 achieves a
new state-of-the-art FID of 1.28. Additionally, as a beneficial by-product, our
decoupled architecture enhances inference speed by enabling the sharing
self-condition between adjacent denoising steps. To minimize performance
degradation, we propose a novel statistical dynamic programming approach to
identify optimal sharing strategies.Summary
AI-Generated Summary