DPM-Solver-v3:経験的モデル統計を活用した拡散ODEソルバーの改良
DPM-Solver-v3: Improved Diffusion ODE Solver with Empirical Model Statistics
October 20, 2023
著者: Kaiwen Zheng, Cheng Lu, Jianfei Chen, Jun Zhu
cs.AI
要旨
拡散確率モデル(DPMs)は、高忠実度の画像生成において優れた性能を示す一方で、サンプリングの非効率性に悩まされてきた。最近の研究では、DPMsの特定のODE形式を活用した高速ODEソルバーを提案することで、サンプリング手順を加速している。しかし、これらの手法は推論中の特定のパラメータ化(例えばノイズ/データ予測)に強く依存しており、必ずしも最適な選択とは限らない。本研究では、ODE解の一次離散化誤差を最小化するサンプリング中の最適なパラメータ化に向けた新たな定式化を提案する。この定式化に基づき、事前学習済みモデル上で効率的に計算されるいくつかの係数(経験的モデル統計量と呼ぶ)を導入した新しい高速ODEソルバーであるDPM-Solver-v3を提案する。さらに、マルチステップ法と予測子-修正子フレームワークを組み込み、少ない関数評価回数(NFE)や大きなガイダンススケールにおけるサンプル品質を向上させるためのいくつかの技術を提案する。実験結果から、DPM-Solver-v3は、ピクセル空間および潜在空間DPMsの両方において、無条件および条件付きサンプリングで一貫して優れたまたは同等の性能を達成し、特に5~10 NFEの範囲で顕著な性能を示す。無条件CIFAR10では12.21(5 NFE)、2.51(10 NFE)のFIDを、Stable Diffusionでは0.55(5 NFE、7.5ガイダンススケール)のMSEを達成し、従来の最先端のトレーニング不要な手法と比較して15%~30%の高速化を実現した。コードはhttps://github.com/thu-ml/DPM-Solver-v3で公開されている。
English
Diffusion probabilistic models (DPMs) have exhibited excellent performance
for high-fidelity image generation while suffering from inefficient sampling.
Recent works accelerate the sampling procedure by proposing fast ODE solvers
that leverage the specific ODE form of DPMs. However, they highly rely on
specific parameterization during inference (such as noise/data prediction),
which might not be the optimal choice. In this work, we propose a novel
formulation towards the optimal parameterization during sampling that minimizes
the first-order discretization error of the ODE solution. Based on such
formulation, we propose DPM-Solver-v3, a new fast ODE solver for DPMs
by introducing several coefficients efficiently computed on the pretrained
model, which we call empirical model statistics. We further
incorporate multistep methods and a predictor-corrector framework, and propose
some techniques for improving sample quality at small numbers of function
evaluations (NFE) or large guidance scales. Experiments show that DPM-Solver-v3
achieves consistently better or comparable performance in both unconditional
and conditional sampling with both pixel-space and latent-space DPMs,
especially in 5sim10 NFEs. We achieve FIDs of 12.21 (5 NFE), 2.51 (10 NFE)
on unconditional CIFAR10, and MSE of 0.55 (5 NFE, 7.5 guidance scale) on Stable
Diffusion, bringing a speed-up of 15\%sim30\% compared to previous
state-of-the-art training-free methods. Code is available at
https://github.com/thu-ml/DPM-Solver-v3.