Chiarificazione del Bias SNR-t nei Modelli Probabilistici di Diffusione

Abstract

I modelli probabilistici di diffusione hanno dimostrato prestazioni notevoli in un'ampia gamma di compiti generativi. Tuttavia, abbiamo osservato che questi modelli soffrono spesso di un bias Rapporto Segnale-Rumore-timestep (SNR-t). Questo bias si riferisce al disallineamento tra l'SNR del campione di denoising e il suo corrispondente timestep durante la fase di inferenza. Nello specifico, durante l'addestramento, l'SNR di un campione è strettamente accoppiato con il suo timestep. Tuttavia, questa corrispondenza viene interrotta durante l'inferenza, portando a un accumulo di errori e compromettendo la qualità della generazione. Forniamo prove empiriche complete e un'analisi teorica per comprovare questo fenomeno e proponiamo un metodo di correzione differenziale semplice ma efficace per mitigare il bias SNR-t. Riconoscendo che i modelli di diffusione tipicamente ricostruiscono le componenti a bassa frequenza prima di concentrarsi sui dettagli ad alta frequenza durante il processo inverso di denoising, scomponiamo i campioni in varie componenti di frequenza e applichiamo la correzione differenziale a ciascuna componente individualmente. Esperimenti estensivi mostrano che il nostro approccio migliora significativamente la qualità della generazione di vari modelli di diffusione (IDDPM, ADM, DDIM, A-DPM, EA-DPM, EDM, PFGM++ e FLUX) su dataset di varie risoluzioni con un overhead computazionale trascurabile. Il codice è disponibile all'indirizzo https://github.com/AMAP-ML/DCW.

English

Diffusion Probabilistic Models have demonstrated remarkable performance across a wide range of generative tasks. However, we have observed that these models often suffer from a Signal-to-Noise Ratio-timestep (SNR-t) bias. This bias refers to the misalignment between the SNR of the denoising sample and its corresponding timestep during the inference phase. Specifically, during training, the SNR of a sample is strictly coupled with its timestep. However, this correspondence is disrupted during inference, leading to error accumulation and impairing the generation quality. We provide comprehensive empirical evidence and theoretical analysis to substantiate this phenomenon and propose a simple yet effective differential correction method to mitigate the SNR-t bias. Recognizing that diffusion models typically reconstruct low-frequency components before focusing on high-frequency details during the reverse denoising process, we decompose samples into various frequency components and apply differential correction to each component individually. Extensive experiments show that our approach significantly improves the generation quality of various diffusion models (IDDPM, ADM, DDIM, A-DPM, EA-DPM, EDM, PFGM++, and FLUX) on datasets of various resolutions with negligible computational overhead. The code is at https://github.com/AMAP-ML/DCW.

Chiarificazione del Bias SNR-t nei Modelli Probabilistici di Diffusione

Elucidating the SNR-t Bias of Diffusion Probabilistic Models

Abstract

Support