ChatPaper.aiChatPaper

DPM-Solver-v3 : Solveur d'équations différentielles de diffusion amélioré avec statistiques de modèle empirique

DPM-Solver-v3: Improved Diffusion ODE Solver with Empirical Model Statistics

October 20, 2023
papers.authors: Kaiwen Zheng, Cheng Lu, Jianfei Chen, Jun Zhu
cs.AI

papers.abstract

Les modèles probabilistes de diffusion (DPMs) ont démontré d'excellentes performances pour la génération d'images haute fidélité, tout en souffrant d'un échantillonnage inefficace. Des travaux récents accélèrent la procédure d'échantillonnage en proposant des solveurs d'équations différentielles ordinaires (EDO) rapides qui exploitent la forme spécifique des EDO des DPMs. Cependant, ils reposent fortement sur une paramétrisation spécifique lors de l'inférence (telle que la prédiction de bruit ou de données), qui pourrait ne pas être le choix optimal. Dans ce travail, nous proposons une nouvelle formulation visant à optimiser la paramétrisation pendant l'échantillonnage, minimisant ainsi l'erreur de discrétisation du premier ordre de la solution de l'EDO. Sur la base de cette formulation, nous proposons DPM-Solver-v3, un nouveau solveur d'EDO rapide pour les DPMs, en introduisant plusieurs coefficients calculés efficacement sur le modèle pré-entraîné, que nous appelons statistiques empiriques du modèle. Nous intégrons en outre des méthodes à pas multiples et un cadre prédicteur-correcteur, et proposons des techniques pour améliorer la qualité des échantillons avec un faible nombre d'évaluations de fonctions (NFE) ou des échelles de guidage élevées. Les expériences montrent que DPM-Solver-v3 obtient systématiquement des performances meilleures ou comparables dans l'échantillonnage conditionnel et non conditionnel, avec des DPMs dans l'espace des pixels et dans l'espace latent, en particulier pour 5 à 10 NFE. Nous obtenons des FID de 12,21 (5 NFE) et 2,51 (10 NFE) sur CIFAR10 non conditionnel, et une MSE de 0,55 (5 NFE, échelle de guidage de 7,5) sur Stable Diffusion, ce qui représente une accélération de 15 % à 30 % par rapport aux méthodes sans apprentissage précédentes de pointe. Le code est disponible à l'adresse https://github.com/thu-ml/DPM-Solver-v3.
English
Diffusion probabilistic models (DPMs) have exhibited excellent performance for high-fidelity image generation while suffering from inefficient sampling. Recent works accelerate the sampling procedure by proposing fast ODE solvers that leverage the specific ODE form of DPMs. However, they highly rely on specific parameterization during inference (such as noise/data prediction), which might not be the optimal choice. In this work, we propose a novel formulation towards the optimal parameterization during sampling that minimizes the first-order discretization error of the ODE solution. Based on such formulation, we propose DPM-Solver-v3, a new fast ODE solver for DPMs by introducing several coefficients efficiently computed on the pretrained model, which we call empirical model statistics. We further incorporate multistep methods and a predictor-corrector framework, and propose some techniques for improving sample quality at small numbers of function evaluations (NFE) or large guidance scales. Experiments show that DPM-Solver-v3 achieves consistently better or comparable performance in both unconditional and conditional sampling with both pixel-space and latent-space DPMs, especially in 5sim10 NFEs. We achieve FIDs of 12.21 (5 NFE), 2.51 (10 NFE) on unconditional CIFAR10, and MSE of 0.55 (5 NFE, 7.5 guidance scale) on Stable Diffusion, bringing a speed-up of 15\%sim30\% compared to previous state-of-the-art training-free methods. Code is available at https://github.com/thu-ml/DPM-Solver-v3.
PDF182December 15, 2024