DPM-Solver-v3: 경험적 모델 통계를 활용한 개선된 확산 ODE 솔버
DPM-Solver-v3: Improved Diffusion ODE Solver with Empirical Model Statistics
October 20, 2023
저자: Kaiwen Zheng, Cheng Lu, Jianfei Chen, Jun Zhu
cs.AI
초록
확산 확률 모델(Diffusion Probabilistic Models, DPMs)은 고충실도 이미지 생성에서 우수한 성능을 보여주는 반면, 비효율적인 샘플링 문제를 겪고 있다. 최근 연구들은 DPM의 특정 ODE 형태를 활용한 빠른 ODE 솔버를 제안하여 샘플링 절차를 가속화하였다. 그러나 이러한 방법들은 추론 과정에서 특정 파라미터화(예: 노이즈/데이터 예측)에 크게 의존하며, 이는 최적의 선택이 아닐 수 있다. 본 연구에서는 ODE 해의 1차 이산화 오차를 최소화하는 샘플링 중 최적 파라미터화를 위한 새로운 공식을 제안한다. 이를 기반으로 사전 학습된 모델에서 효율적으로 계산되는 여러 계수(경험적 모델 통계량)를 도입하여 DPM-Solver-v3라는 새로운 빠른 ODE 솔버를 제안한다. 또한, 다단계 방법과 예측자-수정자 프레임워크를 통합하고, 적은 함수 평가 횟수(NFE)나 큰 가이던스 스케일에서 샘플 품질을 개선하기 위한 몇 가지 기법을 제안한다. 실험 결과, DPM-Solver-v3는 픽셀 공간 및 잠재 공간 DPM 모두에서 무조건 및 조건부 샘플링에서 일관되게 더 나은 또는 비슷한 성능을 달성하며, 특히 5~10 NFE에서 두드러진 성능을 보인다. 무조건 CIFAR10에서 12.21(5 NFE), 2.51(10 NFE)의 FID를 달성했으며, Stable Diffusion에서 0.55(5 NFE, 7.5 가이던스 스케일)의 MSE를 기록하여 기존의 최신 학습 없는 방법 대비 15%~30%의 속도 향상을 보였다. 코드는 https://github.com/thu-ml/DPM-Solver-v3에서 확인할 수 있다.
English
Diffusion probabilistic models (DPMs) have exhibited excellent performance
for high-fidelity image generation while suffering from inefficient sampling.
Recent works accelerate the sampling procedure by proposing fast ODE solvers
that leverage the specific ODE form of DPMs. However, they highly rely on
specific parameterization during inference (such as noise/data prediction),
which might not be the optimal choice. In this work, we propose a novel
formulation towards the optimal parameterization during sampling that minimizes
the first-order discretization error of the ODE solution. Based on such
formulation, we propose DPM-Solver-v3, a new fast ODE solver for DPMs
by introducing several coefficients efficiently computed on the pretrained
model, which we call empirical model statistics. We further
incorporate multistep methods and a predictor-corrector framework, and propose
some techniques for improving sample quality at small numbers of function
evaluations (NFE) or large guidance scales. Experiments show that DPM-Solver-v3
achieves consistently better or comparable performance in both unconditional
and conditional sampling with both pixel-space and latent-space DPMs,
especially in 5sim10 NFEs. We achieve FIDs of 12.21 (5 NFE), 2.51 (10 NFE)
on unconditional CIFAR10, and MSE of 0.55 (5 NFE, 7.5 guidance scale) on Stable
Diffusion, bringing a speed-up of 15\%sim30\% compared to previous
state-of-the-art training-free methods. Code is available at
https://github.com/thu-ml/DPM-Solver-v3.