Mitigando a Mudança de Ruído para Modelos Gerativos de Remoção de Ruído via Orientação de Consciência de Ruído

Resumo

Os modelos generativos de remoção de ruído existentes dependem da resolução de SDEs ou ODEs reversas no tempo discretizado. Neste artigo, identificamos um problema há muito negligenciado, porém generalizado, nesta família de modelos: um desalinhamento entre o nível de ruído pré-definido e o nível de ruído real codificado nos estados intermediários durante a amostragem. Referimo-nos a esse desalinhamento como deslocamento de ruído. Por meio de análise empírica, demonstramos que o deslocamento de ruído é amplamente presente em modelos de difusão modernos e exibe um viés sistemático, levando a uma geração subótima devido tanto à generalização fora da distribuição quanto a atualizações imprecisas de remoção de ruído. Para abordar esse problema, propomos o Noise Awareness Guidance (NAG), um método de correção simples, porém eficaz, que orienta explicitamente as trajetórias de amostragem a permanecerem consistentes com o cronograma de ruído pré-definido. Além disso, introduzimos uma variante do NAG sem classificador, que treina conjuntamente um modelo condicionado ao ruído e um modelo não condicionado ao ruído por meio de dropout condicionado ao ruído, eliminando assim a necessidade de classificadores externos. Experimentos extensivos, incluindo geração no ImageNet e várias tarefas de ajuste fino supervisionado, mostram que o NAG mitiga consistentemente o deslocamento de ruído e melhora substancialmente a qualidade de geração dos principais modelos de difusão.

English

Existing denoising generative models rely on solving discretized reverse-time SDEs or ODEs. In this paper, we identify a long-overlooked yet pervasive issue in this family of models: a misalignment between the pre-defined noise level and the actual noise level encoded in intermediate states during sampling. We refer to this misalignment as noise shift. Through empirical analysis, we demonstrate that noise shift is widespread in modern diffusion models and exhibits a systematic bias, leading to sub-optimal generation due to both out-of-distribution generalization and inaccurate denoising updates. To address this problem, we propose Noise Awareness Guidance (NAG), a simple yet effective correction method that explicitly steers sampling trajectories to remain consistent with the pre-defined noise schedule. We further introduce a classifier-free variant of NAG, which jointly trains a noise-conditional and a noise-unconditional model via noise-condition dropout, thereby eliminating the need for external classifiers. Extensive experiments, including ImageNet generation and various supervised fine-tuning tasks, show that NAG consistently mitigates noise shift and substantially improves the generation quality of mainstream diffusion models.

Mitigando a Mudança de Ruído para Modelos Gerativos de Remoção de Ruído via Orientação de Consciência de Ruído

Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance

Resumo

Support