数ステップ拡散蒸留のための連続時間分布マッチング
Continuous-Time Distribution Matching for Few-Step Diffusion Distillation
May 7, 2026
著者: Tao Liu, Hao Yan, Mengting Chen, Taihang Hu, Zhengrong Yue, Zihao Pan, Jinsong Lan, Xiaoyong Zhu, Ming-Ming Cheng, Bo Zheng, Yaxing Wang
cs.AI
要旨
ステップ蒸留は拡散モデルの高速化における主要技術として確立され、その中でも分布マッチング蒸留(DMD)と一貫性蒸留が代表的なパラダイムである。一貫性手法は完全なPF-ODE軌道に沿った自己一貫性を強化してクリーンデータ多様体への誘導を図るのに対し、従来のDMDは事前定義された離散タイムステップにおける疎な教師信号に依存している。この制限的な離散時間定式化と逆KLダイバージェンスのモード追求特性は、視覚的アーティファクトや過度に平滑化された出力を生じやすく、視覚的忠実度を回復するためにGANや報酬モデルといった複雑な補助モジュールを必要とすることが多い。本研究では、連続時間分布マッチング(CDM)を初めて提案し、DMDフレームワークを離散的な固定点最適化から連続最適化へ移行させる。CDMは2つの連続時間設計によってこれを実現する。第一に、固定離散スケジュールをランダム長の動的連続スケジュールに置き換え、分布マッチングが少数の固定点ではなくサンプリング軌道上の任意の点で強化されるようにする。第二に、学生モデルの速度場によって補外された潜在変数に対して能動的な軌道外マッチングを行う連続時間整合目標を提案し、汎化性能の向上と微細な視覚的詳細の保持を図る。SD3-MediumやLongcat-Imageを含む様々なアーキテクチャでの大規模実験により、CDMが複雑な補助目標に依存することなく、少数ステップ画像生成において極めて競争力の高い視覚的忠実度を実現することが実証された。コードはhttps://github.com/byliutao/cdmで公開されている。
English
Step distillation has become a leading technique for accelerating diffusion models, among which Distribution Matching Distillation (DMD) and Consistency Distillation are two representative paradigms. While consistency methods enforce self-consistency along the full PF-ODE trajectory to steer it toward the clean data manifold, vanilla DMD relies on sparse supervision at a few predefined discrete timesteps. This restricted discrete-time formulation and mode-seeking nature of the reverse KL divergence tends to exhibit visual artifacts and over-smoothed outputs, often necessitating complex auxiliary modules -- such as GANs or reward models -- to restore visual fidelity. In this work, we introduce Continuous-Time Distribution Matching (CDM), migrating the DMD framework from discrete anchoring to continuous optimization for the first time. CDM achieves this through two continuous-time designs. First, we replace the fixed discrete schedule with a dynamic continuous schedule of random length, so that distribution matching is enforced at arbitrary points along sampling trajectories rather than only at a few fixed anchors. Second, we propose a continuous-time alignment objective that performs active off-trajectory matching on latents extrapolated via the student's velocity field, improving generalization and preserving fine visual details. Extensive experiments on different architectures, including SD3-Medium and Longcat-Image, demonstrate that CDM provides highly competitive visual fidelity for few-step image generation without relying on complex auxiliary objectives. Code is available at https://github.com/byliutao/cdm.