Esclarecendo o Viés SNR-t dos Modelos Probabilísticos de Difusão

Resumo

Os Modelos Probabilísticos de Difusão demonstraram desempenho notável em uma ampla gama de tarefas generativas. No entanto, observamos que esses modelos frequentemente sofrem de um viés Relação Sinal-Ruído-tempo (SNR-t). Esse viés refere-se ao desalinhamento entre a SNR da amostra de desruído e seu timestep correspondente durante a fase de inferência. Especificamente, durante o treinamento, a SNR de uma amostra está estritamente acoplada ao seu timestep. Entretanto, essa correspondência é interrompida durante a inferência, levando ao acúmulo de erros e prejudicando a qualidade da geração. Fornecemos evidências empíricas abrangentes e análise teórica para comprovar esse fenômeno e propomos um método de correção diferencial simples, porém eficaz, para mitigar o viés SNR-t. Reconhecendo que os modelos de difusão normalmente reconstroem componentes de baixa frequência antes de se concentrarem em detalhes de alta frequência durante o processo reverso de desruído, decompomos as amostras em vários componentes de frequência e aplicamos correção diferencial a cada componente individualmente. Experimentos extensivos mostram que nossa abordagem melhora significativamente a qualidade da geração de vários modelos de difusão (IDDPM, ADM, DDIM, A-DPM, EA-DPM, EDM, PFGM++ e FLUX) em conjuntos de dados de várias resoluções com sobrecarga computacional insignificante. O código está disponível em https://github.com/AMAP-ML/DCW.

English

Diffusion Probabilistic Models have demonstrated remarkable performance across a wide range of generative tasks. However, we have observed that these models often suffer from a Signal-to-Noise Ratio-timestep (SNR-t) bias. This bias refers to the misalignment between the SNR of the denoising sample and its corresponding timestep during the inference phase. Specifically, during training, the SNR of a sample is strictly coupled with its timestep. However, this correspondence is disrupted during inference, leading to error accumulation and impairing the generation quality. We provide comprehensive empirical evidence and theoretical analysis to substantiate this phenomenon and propose a simple yet effective differential correction method to mitigate the SNR-t bias. Recognizing that diffusion models typically reconstruct low-frequency components before focusing on high-frequency details during the reverse denoising process, we decompose samples into various frequency components and apply differential correction to each component individually. Extensive experiments show that our approach significantly improves the generation quality of various diffusion models (IDDPM, ADM, DDIM, A-DPM, EA-DPM, EDM, PFGM++, and FLUX) on datasets of various resolutions with negligible computational overhead. The code is at https://github.com/AMAP-ML/DCW.

Esclarecendo o Viés SNR-t dos Modelos Probabilísticos de Difusão

Elucidating the SNR-t Bias of Diffusion Probabilistic Models

Resumo

Support