段階的DMD:部分区間内スコアマッチングによる少数ステップ分布マッチング蒸留
Phased DMD: Few-step Distribution Matching Distillation via Score Matching within Subintervals
October 31, 2025
著者: Xiangyu Fan, Zesong Qiu, Zhuguanyu Wu, Fanzhou Wang, Zhiqian Lin, Tianxiang Ren, Dahua Lin, Ruihao Gong, Lei Yang
cs.AI
要旨
Distribution Matching Distillation (DMD) は、スコアベース生成モデルを効率的なワンステップ生成器へと蒸留する手法であり、教師モデルのサンプリング軌跡との一対一対応を必要としない。しかしながら、モデル容量の制約により、複雑な生成タスク(例えば、テキスト対ビデオ生成における精緻な物体動作の合成など)では、ワンステップ蒸留モデルの性能は限定的となる。DMDを直接マルチステップ蒸留に拡張すると、メモリ使用量と計算深度が増大し、不安定性と効率低下を招く。先行研究では確率的勾配打ち切りが潜在的な解決策として提案されているが、我々はこれがマルチステップ蒸留モデルの生成多様性を大幅に低下させ、ワンステップモデルと同水準まで低下させることを確認した。これらの課題を解決するため、我々は Phased DMD を提案する。これは、段階的蒸留のアイデアと Mixture-of-Experts (MoE) を組み合わせたマルチステップ蒸留フレームワークであり、学習困難を軽減しつつモデル容量を強化する。Phased DMD は、漸進的分布マッチングと部分区間内でのスコアマッチングという二つの核となるアイデアに基づく。まず、本モデルはSNR範囲を部分区間に分割し、より高SNRレベルへ向けてモデルを段階的に洗練させることで、複雑な分布の捕捉を改善する。次に、各部分区間内での訓練目標が正確であることを保証するため、我々は厳密な数学的導出を行った。我々は、Qwen-Image (200億パラメータ) や Wan2.2 (280億パラメータ) を含む、最先端の画像・ビデオ生成モデルの蒸留を通じて Phased DMD を検証した。実験結果は、Phased DMD が主要な生成能力を維持しつつ、DMD よりも優れて出力多様性を保持することを示している。コード及びモデルは公開予定である。
English
Distribution Matching Distillation (DMD) distills score-based generative
models into efficient one-step generators, without requiring a one-to-one
correspondence with the sampling trajectories of their teachers. However,
limited model capacity causes one-step distilled models underperform on complex
generative tasks, e.g., synthesizing intricate object motions in text-to-video
generation. Directly extending DMD to multi-step distillation increases memory
usage and computational depth, leading to instability and reduced efficiency.
While prior works propose stochastic gradient truncation as a potential
solution, we observe that it substantially reduces the generation diversity of
multi-step distilled models, bringing it down to the level of their one-step
counterparts. To address these limitations, we propose Phased DMD, a multi-step
distillation framework that bridges the idea of phase-wise distillation with
Mixture-of-Experts (MoE), reducing learning difficulty while enhancing model
capacity. Phased DMD is built upon two key ideas: progressive distribution
matching and score matching within subintervals. First, our model divides the
SNR range into subintervals, progressively refining the model to higher SNR
levels, to better capture complex distributions. Next, to ensure the training
objective within each subinterval is accurate, we have conducted rigorous
mathematical derivations. We validate Phased DMD by distilling state-of-the-art
image and video generation models, including Qwen-Image (20B parameters) and
Wan2.2 (28B parameters). Experimental results demonstrate that Phased DMD
preserves output diversity better than DMD while retaining key generative
capabilities. We will release our code and models.