Mitigación del Cambio de Ruido en Modelos Generativos de Eliminación de Ruido mediante Guía de Conciencia del Ruido
Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance
October 14, 2025
Autores: Jincheng Zhong, Boyuan Jiang, Xin Tao, Pengfei Wan, Kun Gai, Mingsheng Long
cs.AI
Resumen
Los modelos generativos de eliminación de ruido existentes se basan en la resolución de ecuaciones diferenciales estocásticas (SDE) o ecuaciones diferenciales ordinarias (ODE) en tiempo inverso discretizadas. En este artículo, identificamos un problema pasado por alto pero generalizado en esta familia de modelos: una desalineación entre el nivel de ruido predefinido y el nivel de ruido real codificado en los estados intermedios durante el muestreo. Nos referimos a esta desalineación como *desplazamiento de ruido*. A través de un análisis empírico, demostramos que el desplazamiento de ruido está ampliamente presente en los modelos de difusión modernos y exhibe un sesgo sistemático, lo que conduce a una generación subóptima debido tanto a la generalización fuera de distribución como a actualizaciones de eliminación de ruido inexactas. Para abordar este problema, proponemos *Guía de Conciencia del Ruido* (Noise Awareness Guidance, NAG), un método de corrección simple pero efectivo que guía explícitamente las trayectorias de muestreo para que permanezcan consistentes con el programa de ruido predefinido. Además, introducimos una variante de NAG sin clasificador, que entrena conjuntamente un modelo condicionado por ruido y un modelo no condicionado mediante la técnica de *dropout* condicionado por ruido, eliminando así la necesidad de clasificadores externos. Experimentos exhaustivos, que incluyen generación en ImageNet y diversas tareas de ajuste fino supervisado, muestran que NAG mitiga consistentemente el desplazamiento de ruido y mejora sustancialmente la calidad de generación de los modelos de difusión principales.
English
Existing denoising generative models rely on solving discretized reverse-time
SDEs or ODEs. In this paper, we identify a long-overlooked yet pervasive issue
in this family of models: a misalignment between the pre-defined noise level
and the actual noise level encoded in intermediate states during sampling. We
refer to this misalignment as noise shift. Through empirical analysis, we
demonstrate that noise shift is widespread in modern diffusion models and
exhibits a systematic bias, leading to sub-optimal generation due to both
out-of-distribution generalization and inaccurate denoising updates. To address
this problem, we propose Noise Awareness Guidance (NAG), a simple yet effective
correction method that explicitly steers sampling trajectories to remain
consistent with the pre-defined noise schedule. We further introduce a
classifier-free variant of NAG, which jointly trains a noise-conditional and a
noise-unconditional model via noise-condition dropout, thereby eliminating the
need for external classifiers. Extensive experiments, including ImageNet
generation and various supervised fine-tuning tasks, show that NAG consistently
mitigates noise shift and substantially improves the generation quality of
mainstream diffusion models.