ChatPaper.aiChatPaper

DPM-Solver-v3: Solucionador de EDO de Difusão Aprimorado com Estatísticas Empíricas do Modelo

DPM-Solver-v3: Improved Diffusion ODE Solver with Empirical Model Statistics

October 20, 2023
Autores: Kaiwen Zheng, Cheng Lu, Jianfei Chen, Jun Zhu
cs.AI

Resumo

Modelos probabilísticos de difusão (DPMs) têm demonstrado excelente desempenho na geração de imagens de alta fidelidade, embora sofram com amostragem ineficiente. Trabalhos recentes aceleram o procedimento de amostragem propondo solucionadores rápidos de EDOs que aproveitam a forma específica de EDO dos DPMs. No entanto, eles dependem fortemente de parametrizações específicas durante a inferência (como predição de ruído/dados), o que pode não ser a escolha ideal. Neste trabalho, propomos uma nova formulação em direção à parametrização ótima durante a amostragem que minimiza o erro de discretização de primeira ordem da solução da EDO. Com base nessa formulação, propomos o DPM-Solver-v3, um novo solucionador rápido de EDOs para DPMs, introduzindo vários coeficientes eficientemente calculados no modelo pré-treinado, que chamamos de estatísticas empíricas do modelo. Além disso, incorporamos métodos de múltiplos passos e uma estrutura preditor-corretor, e propomos algumas técnicas para melhorar a qualidade da amostra com um número reduzido de avaliações de função (NFE) ou escalas de orientação grandes. Experimentos mostram que o DPM-Solver-v3 alcança consistentemente desempenho melhor ou comparável tanto na amostragem incondicional quanto na condicional, com DPMs tanto no espaço de pixels quanto no espaço latente, especialmente em 5 a 10 NFEs. Alcançamos FIDs de 12,21 (5 NFE) e 2,51 (10 NFE) no CIFAR10 incondicional, e MSE de 0,55 (5 NFE, escala de orientação 7,5) no Stable Diffusion, proporcionando uma aceleração de 15% a 30% em comparação com os melhores métodos state-of-the-art sem treinamento. O código está disponível em https://github.com/thu-ml/DPM-Solver-v3.
English
Diffusion probabilistic models (DPMs) have exhibited excellent performance for high-fidelity image generation while suffering from inefficient sampling. Recent works accelerate the sampling procedure by proposing fast ODE solvers that leverage the specific ODE form of DPMs. However, they highly rely on specific parameterization during inference (such as noise/data prediction), which might not be the optimal choice. In this work, we propose a novel formulation towards the optimal parameterization during sampling that minimizes the first-order discretization error of the ODE solution. Based on such formulation, we propose DPM-Solver-v3, a new fast ODE solver for DPMs by introducing several coefficients efficiently computed on the pretrained model, which we call empirical model statistics. We further incorporate multistep methods and a predictor-corrector framework, and propose some techniques for improving sample quality at small numbers of function evaluations (NFE) or large guidance scales. Experiments show that DPM-Solver-v3 achieves consistently better or comparable performance in both unconditional and conditional sampling with both pixel-space and latent-space DPMs, especially in 5sim10 NFEs. We achieve FIDs of 12.21 (5 NFE), 2.51 (10 NFE) on unconditional CIFAR10, and MSE of 0.55 (5 NFE, 7.5 guidance scale) on Stable Diffusion, bringing a speed-up of 15\%sim30\% compared to previous state-of-the-art training-free methods. Code is available at https://github.com/thu-ml/DPM-Solver-v3.
PDF182February 8, 2026