DDT: 分離拡散トランスフォーマーDDT: Decoupled Diffusion Transformer
拡散トランスフォーマーは優れた生成品質を実証しているものの、より長い訓練イテレーションと多数の推論ステップを必要とします。各ノイズ除去ステップにおいて、拡散トランスフォーマーはノイズの多い入力をエンコードして低周波の意味成分を抽出し、その後、同一のモジュールで高周波成分をデコードします。このスキームは、低周波の意味をエンコードするには高周波成分を削減する必要があるという、意味エンコードと高周波デコードの間の緊張関係を生み出す固有の最適化ジレンマを引き起こします。この課題を解決するため、我々は新しい\color{ddtD}分離型\color{ddtD}拡散\color{ddtT}トランスフォーマー(\color{ddtDDT})を提案します。これは、意味抽出のための専用の条件エンコーダと特殊化された速度デコーダを分離した設計を採用しています。我々の実験では、より大規模なエンコーダがモデルサイズの増加に伴い性能向上をもたらすことが明らかになりました。ImageNet 256×256において、我々のDDT-XL/2は{1.31 FID}という新たな最先端の性能を達成し(従来の拡散トランスフォーマーと比較して約4倍の訓練収束速度を実現)、ImageNet 512×512では1.28 FIDという新たな最先端の性能を達成しました。さらに、有益な副産物として、我々の分離型アーキテクチャは、隣接するノイズ除去ステップ間で自己条件を共有することで推論速度を向上させます。性能低下を最小限に抑えるため、我々は最適な共有戦略を特定するための新しい統計的動的計画法アプローチを提案します。