スケールごとの拡散モデルの蒸留
Scale-wise Distillation of Diffusion Models
March 20, 2025
著者: Nikita Starodubcev, Denis Kuznedelev, Artem Babenko, Dmitry Baranchuk
cs.AI
要旨
本論文では、拡散モデル(DMs)のためのスケールワイズ蒸留フレームワーク「SwD」を提案する。SwDは、拡散ベースの少ステップ生成器に対して、次スケール予測のアイデアを効果的に活用する。具体的には、SwDは、拡散プロセスと暗黙的なスペクトル自己回帰との関連性に関する最近の知見に着想を得ている。我々は、DMsが低いデータ解像度で生成を開始し、各ノイズ除去ステップでサンプルを段階的にアップスケールしても性能を損なうことなく、計算コストを大幅に削減できると仮定する。SwDは、このアイデアを既存の分布マッチングに基づく拡散蒸留手法に自然に統合する。さらに、ターゲット分布とのより細粒度な類似性を強制する新しいパッチ損失を導入することで、分布マッチング手法のファミリーを拡充する。最先端のテキストから画像への拡散モデルに適用した場合、SwDは2つのフル解像度ステップの推論時間に近づき、自動化されたメトリクスと人間の嗜好調査において、同じ計算予算下で他の手法を大幅に上回る性能を示す。
English
We present SwD, a scale-wise distillation framework for diffusion models
(DMs), which effectively employs next-scale prediction ideas for
diffusion-based few-step generators. In more detail, SwD is inspired by the
recent insights relating diffusion processes to the implicit spectral
autoregression. We suppose that DMs can initiate generation at lower data
resolutions and gradually upscale the samples at each denoising step without
loss in performance while significantly reducing computational costs. SwD
naturally integrates this idea into existing diffusion distillation methods
based on distribution matching. Also, we enrich the family of distribution
matching approaches by introducing a novel patch loss enforcing finer-grained
similarity to the target distribution. When applied to state-of-the-art
text-to-image diffusion models, SwD approaches the inference times of two full
resolution steps and significantly outperforms the counterparts under the same
computation budget, as evidenced by automated metrics and human preference
studies.Summary
AI-Generated Summary