Mitigare lo spostamento del rumore per i modelli generativi di denoising tramite la guida della consapevolezza del rumore
Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance
October 14, 2025
Autori: Jincheng Zhong, Boyuan Jiang, Xin Tao, Pengfei Wan, Kun Gai, Mingsheng Long
cs.AI
Abstract
I modelli generativi di denoising esistenti si basano sulla risoluzione di SDE o ODE inverse discretizzate. In questo articolo, identifichiamo un problema a lungo trascurato ma pervasivo in questa famiglia di modelli: un disallineamento tra il livello di rumore predefinito e il livello di rumore effettivamente codificato negli stati intermedi durante il campionamento. Ci riferiamo a questo disallineamento come "noise shift". Attraverso un'analisi empirica, dimostriamo che il noise shift è diffuso nei moderni modelli di diffusione e presenta un bias sistematico, portando a una generazione subottimale a causa sia della generalizzazione fuori distribuzione che di aggiornamenti di denoising inaccurati. Per affrontare questo problema, proponiamo Noise Awareness Guidance (NAG), un metodo di correzione semplice ma efficace che guida esplicitamente le traiettorie di campionamento a rimanere coerenti con la schedulazione del rumore predefinita. Introduciamo inoltre una variante di NAG senza classificatore, che addestra congiuntamente un modello condizionato al rumore e un modello non condizionato tramite dropout condizionato al rumore, eliminando così la necessità di classificatori esterni. Esperimenti estesi, tra cui la generazione su ImageNet e varie attività di fine-tuning supervisionato, mostrano che NAG mitiga costantemente il noise shift e migliora sostanzialmente la qualità della generazione dei principali modelli di diffusione.
English
Existing denoising generative models rely on solving discretized reverse-time
SDEs or ODEs. In this paper, we identify a long-overlooked yet pervasive issue
in this family of models: a misalignment between the pre-defined noise level
and the actual noise level encoded in intermediate states during sampling. We
refer to this misalignment as noise shift. Through empirical analysis, we
demonstrate that noise shift is widespread in modern diffusion models and
exhibits a systematic bias, leading to sub-optimal generation due to both
out-of-distribution generalization and inaccurate denoising updates. To address
this problem, we propose Noise Awareness Guidance (NAG), a simple yet effective
correction method that explicitly steers sampling trajectories to remain
consistent with the pre-defined noise schedule. We further introduce a
classifier-free variant of NAG, which jointly trains a noise-conditional and a
noise-unconditional model via noise-condition dropout, thereby eliminating the
need for external classifiers. Extensive experiments, including ImageNet
generation and various supervised fine-tuning tasks, show that NAG consistently
mitigates noise shift and substantially improves the generation quality of
mainstream diffusion models.