Mitigando a Mudança de Ruído para Modelos Gerativos de Remoção de Ruído via Orientação de Consciência de Ruído
Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance
October 14, 2025
Autores: Jincheng Zhong, Boyuan Jiang, Xin Tao, Pengfei Wan, Kun Gai, Mingsheng Long
cs.AI
Resumo
Os modelos generativos de remoção de ruído existentes dependem da resolução de SDEs ou ODEs reversas no tempo discretizado. Neste artigo, identificamos um problema há muito negligenciado, porém generalizado, nesta família de modelos: um desalinhamento entre o nível de ruído pré-definido e o nível de ruído real codificado nos estados intermediários durante a amostragem. Referimo-nos a esse desalinhamento como deslocamento de ruído. Por meio de análise empírica, demonstramos que o deslocamento de ruído é amplamente presente em modelos de difusão modernos e exibe um viés sistemático, levando a uma geração subótima devido tanto à generalização fora da distribuição quanto a atualizações imprecisas de remoção de ruído. Para abordar esse problema, propomos o Noise Awareness Guidance (NAG), um método de correção simples, porém eficaz, que orienta explicitamente as trajetórias de amostragem a permanecerem consistentes com o cronograma de ruído pré-definido. Além disso, introduzimos uma variante do NAG sem classificador, que treina conjuntamente um modelo condicionado ao ruído e um modelo não condicionado ao ruído por meio de dropout condicionado ao ruído, eliminando assim a necessidade de classificadores externos. Experimentos extensivos, incluindo geração no ImageNet e várias tarefas de ajuste fino supervisionado, mostram que o NAG mitiga consistentemente o deslocamento de ruído e melhora substancialmente a qualidade de geração dos principais modelos de difusão.
English
Existing denoising generative models rely on solving discretized reverse-time
SDEs or ODEs. In this paper, we identify a long-overlooked yet pervasive issue
in this family of models: a misalignment between the pre-defined noise level
and the actual noise level encoded in intermediate states during sampling. We
refer to this misalignment as noise shift. Through empirical analysis, we
demonstrate that noise shift is widespread in modern diffusion models and
exhibits a systematic bias, leading to sub-optimal generation due to both
out-of-distribution generalization and inaccurate denoising updates. To address
this problem, we propose Noise Awareness Guidance (NAG), a simple yet effective
correction method that explicitly steers sampling trajectories to remain
consistent with the pre-defined noise schedule. We further introduce a
classifier-free variant of NAG, which jointly trains a noise-conditional and a
noise-unconditional model via noise-condition dropout, thereby eliminating the
need for external classifiers. Extensive experiments, including ImageNet
generation and various supervised fine-tuning tasks, show that NAG consistently
mitigates noise shift and substantially improves the generation quality of
mainstream diffusion models.