Mitigación del Cambio de Ruido en Modelos Generativos de Eliminación de Ruido mediante Guía de Conciencia del Ruido

Resumen

Los modelos generativos de eliminación de ruido existentes se basan en la resolución de ecuaciones diferenciales estocásticas (SDE) o ecuaciones diferenciales ordinarias (ODE) en tiempo inverso discretizadas. En este artículo, identificamos un problema pasado por alto pero generalizado en esta familia de modelos: una desalineación entre el nivel de ruido predefinido y el nivel de ruido real codificado en los estados intermedios durante el muestreo. Nos referimos a esta desalineación como *desplazamiento de ruido*. A través de un análisis empírico, demostramos que el desplazamiento de ruido está ampliamente presente en los modelos de difusión modernos y exhibe un sesgo sistemático, lo que conduce a una generación subóptima debido tanto a la generalización fuera de distribución como a actualizaciones de eliminación de ruido inexactas. Para abordar este problema, proponemos *Guía de Conciencia del Ruido* (Noise Awareness Guidance, NAG), un método de corrección simple pero efectivo que guía explícitamente las trayectorias de muestreo para que permanezcan consistentes con el programa de ruido predefinido. Además, introducimos una variante de NAG sin clasificador, que entrena conjuntamente un modelo condicionado por ruido y un modelo no condicionado mediante la técnica de *dropout* condicionado por ruido, eliminando así la necesidad de clasificadores externos. Experimentos exhaustivos, que incluyen generación en ImageNet y diversas tareas de ajuste fino supervisado, muestran que NAG mitiga consistentemente el desplazamiento de ruido y mejora sustancialmente la calidad de generación de los modelos de difusión principales.

English

Existing denoising generative models rely on solving discretized reverse-time SDEs or ODEs. In this paper, we identify a long-overlooked yet pervasive issue in this family of models: a misalignment between the pre-defined noise level and the actual noise level encoded in intermediate states during sampling. We refer to this misalignment as noise shift. Through empirical analysis, we demonstrate that noise shift is widespread in modern diffusion models and exhibits a systematic bias, leading to sub-optimal generation due to both out-of-distribution generalization and inaccurate denoising updates. To address this problem, we propose Noise Awareness Guidance (NAG), a simple yet effective correction method that explicitly steers sampling trajectories to remain consistent with the pre-defined noise schedule. We further introduce a classifier-free variant of NAG, which jointly trains a noise-conditional and a noise-unconditional model via noise-condition dropout, thereby eliminating the need for external classifiers. Extensive experiments, including ImageNet generation and various supervised fine-tuning tasks, show that NAG consistently mitigates noise shift and substantially improves the generation quality of mainstream diffusion models.

Mitigación del Cambio de Ruido en Modelos Generativos de Eliminación de Ruido mediante Guía de Conciencia del Ruido

Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance

Resumen

Support