ChatPaper.aiChatPaper

DPM-Solver-v3:経験的モデル統計を活用した拡散ODEソルバーの改良

DPM-Solver-v3: Improved Diffusion ODE Solver with Empirical Model Statistics

October 20, 2023
著者: Kaiwen Zheng, Cheng Lu, Jianfei Chen, Jun Zhu
cs.AI

要旨

拡散確率モデル(DPMs)は、高忠実度の画像生成において優れた性能を示す一方で、サンプリングの非効率性に悩まされてきた。最近の研究では、DPMsの特定のODE形式を活用した高速ODEソルバーを提案することで、サンプリング手順を加速している。しかし、これらの手法は推論中の特定のパラメータ化(例えばノイズ/データ予測)に強く依存しており、必ずしも最適な選択とは限らない。本研究では、ODE解の一次離散化誤差を最小化するサンプリング中の最適なパラメータ化に向けた新たな定式化を提案する。この定式化に基づき、事前学習済みモデル上で効率的に計算されるいくつかの係数(経験的モデル統計量と呼ぶ)を導入した新しい高速ODEソルバーであるDPM-Solver-v3を提案する。さらに、マルチステップ法と予測子-修正子フレームワークを組み込み、少ない関数評価回数(NFE)や大きなガイダンススケールにおけるサンプル品質を向上させるためのいくつかの技術を提案する。実験結果から、DPM-Solver-v3は、ピクセル空間および潜在空間DPMsの両方において、無条件および条件付きサンプリングで一貫して優れたまたは同等の性能を達成し、特に5~10 NFEの範囲で顕著な性能を示す。無条件CIFAR10では12.21(5 NFE)、2.51(10 NFE)のFIDを、Stable Diffusionでは0.55(5 NFE、7.5ガイダンススケール)のMSEを達成し、従来の最先端のトレーニング不要な手法と比較して15%~30%の高速化を実現した。コードはhttps://github.com/thu-ml/DPM-Solver-v3で公開されている。
English
Diffusion probabilistic models (DPMs) have exhibited excellent performance for high-fidelity image generation while suffering from inefficient sampling. Recent works accelerate the sampling procedure by proposing fast ODE solvers that leverage the specific ODE form of DPMs. However, they highly rely on specific parameterization during inference (such as noise/data prediction), which might not be the optimal choice. In this work, we propose a novel formulation towards the optimal parameterization during sampling that minimizes the first-order discretization error of the ODE solution. Based on such formulation, we propose DPM-Solver-v3, a new fast ODE solver for DPMs by introducing several coefficients efficiently computed on the pretrained model, which we call empirical model statistics. We further incorporate multistep methods and a predictor-corrector framework, and propose some techniques for improving sample quality at small numbers of function evaluations (NFE) or large guidance scales. Experiments show that DPM-Solver-v3 achieves consistently better or comparable performance in both unconditional and conditional sampling with both pixel-space and latent-space DPMs, especially in 5sim10 NFEs. We achieve FIDs of 12.21 (5 NFE), 2.51 (10 NFE) on unconditional CIFAR10, and MSE of 0.55 (5 NFE, 7.5 guidance scale) on Stable Diffusion, bringing a speed-up of 15\%sim30\% compared to previous state-of-the-art training-free methods. Code is available at https://github.com/thu-ml/DPM-Solver-v3.
PDF182December 15, 2024