ChatPaper.aiChatPaper

DPM-Solver-v3: Verbesserter Diffusion-ODE-Löser mit empirischen Modellstatistiken

DPM-Solver-v3: Improved Diffusion ODE Solver with Empirical Model Statistics

October 20, 2023
Autoren: Kaiwen Zheng, Cheng Lu, Jianfei Chen, Jun Zhu
cs.AI

Zusammenfassung

Diffusion-Probabilistische Modelle (DPMs) haben hervorragende Leistungen bei der Erzeugung hochwertiger Bilder gezeigt, leiden jedoch unter ineffizientem Sampling. Neuere Arbeiten beschleunigen den Sampling-Prozess durch die Einführung schneller ODE-Löser, die die spezifische ODE-Form von DPMs nutzen. Allerdings sind sie stark auf spezifische Parametrisierungen während der Inferenz angewiesen (wie z. B. Rauschen/Datenvorhersage), die möglicherweise nicht die optimale Wahl darstellen. In dieser Arbeit schlagen wir eine neuartige Formulierung vor, die auf die optimale Parametrisierung während des Samplings abzielt und den Diskretisierungsfehler erster Ordnung der ODE-Lösung minimiert. Basierend auf dieser Formulierung präsentieren wir DPM-Solver-v3, einen neuen schnellen ODE-Löser für DPMs, indem wir mehrere Koeffizienten einführen, die effizient auf dem vortrainierten Modell berechnet werden und die wir als empirische Modellstatistiken bezeichnen. Wir integrieren weiterhin Mehrschrittmethoden und ein Prädiktor-Korrektor-Framework und schlagen einige Techniken zur Verbesserung der Probenqualität bei geringen Funktionsauswertungen (NFE) oder großen Guidance-Skalen vor. Experimente zeigen, dass DPM-Solver-v3 durchweg bessere oder vergleichbare Leistungen sowohl beim unbedingten als auch beim bedingten Sampling mit Pixelraum- und Latentraum-DPMs erzielt, insbesondere bei 5–10 NFEs. Wir erreichen FIDs von 12,21 (5 NFE) und 2,51 (10 NFE) beim unbedingten CIFAR10 und einen MSE von 0,55 (5 NFE, 7,5 Guidance-Skala) bei Stable Diffusion, was eine Beschleunigung von 15–30 % im Vergleich zu den bisherigen state-of-the-art Methoden ohne Training darstellt. Der Code ist verfügbar unter https://github.com/thu-ml/DPM-Solver-v3.
English
Diffusion probabilistic models (DPMs) have exhibited excellent performance for high-fidelity image generation while suffering from inefficient sampling. Recent works accelerate the sampling procedure by proposing fast ODE solvers that leverage the specific ODE form of DPMs. However, they highly rely on specific parameterization during inference (such as noise/data prediction), which might not be the optimal choice. In this work, we propose a novel formulation towards the optimal parameterization during sampling that minimizes the first-order discretization error of the ODE solution. Based on such formulation, we propose DPM-Solver-v3, a new fast ODE solver for DPMs by introducing several coefficients efficiently computed on the pretrained model, which we call empirical model statistics. We further incorporate multistep methods and a predictor-corrector framework, and propose some techniques for improving sample quality at small numbers of function evaluations (NFE) or large guidance scales. Experiments show that DPM-Solver-v3 achieves consistently better or comparable performance in both unconditional and conditional sampling with both pixel-space and latent-space DPMs, especially in 5sim10 NFEs. We achieve FIDs of 12.21 (5 NFE), 2.51 (10 NFE) on unconditional CIFAR10, and MSE of 0.55 (5 NFE, 7.5 guidance scale) on Stable Diffusion, bringing a speed-up of 15\%sim30\% compared to previous state-of-the-art training-free methods. Code is available at https://github.com/thu-ml/DPM-Solver-v3.
PDF182December 15, 2024