Atténuation du décalage de bruit pour les modèles génératifs de débruitage via un guidage basé sur la conscience du bruit
Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance
October 14, 2025
papers.authors: Jincheng Zhong, Boyuan Jiang, Xin Tao, Pengfei Wan, Kun Gai, Mingsheng Long
cs.AI
papers.abstract
Les modèles génératifs de débruitage existants reposent sur la résolution d'équations différentielles stochastiques (EDS) ou d'équations différentielles ordinaires (EDO) inversées discrétisées. Dans cet article, nous identifions un problème longtemps négligé mais omniprésent dans cette famille de modèles : un désalignement entre le niveau de bruit prédéfini et le niveau de bruit réel encodé dans les états intermédiaires lors de l'échantillonnage. Nous désignons ce désalignement comme un décalage de bruit. À travers une analyse empirique, nous démontrons que ce décalage de bruit est répandu dans les modèles de diffusion modernes et présente un biais systématique, conduisant à une génération sous-optimale en raison à la fois d'une généralisation hors distribution et de mises à jour de débruitage inexactes. Pour résoudre ce problème, nous proposons le Noise Awareness Guidance (NAG), une méthode de correction simple mais efficace qui guide explicitement les trajectoires d'échantillonnage pour qu'elles restent cohérentes avec le calendrier de bruit prédéfini. Nous introduisons également une variante sans classifieur de NAG, qui entraîne conjointement un modèle conditionné par le bruit et un modèle non conditionné via l'abandon conditionné par le bruit, éliminant ainsi le besoin de classifieurs externes. Des expériences approfondies, incluant la génération sur ImageNet et diverses tâches de réglage fin supervisé, montrent que NAG atténue systématiquement le décalage de bruit et améliore considérablement la qualité de génération des modèles de diffusion grand public.
English
Existing denoising generative models rely on solving discretized reverse-time
SDEs or ODEs. In this paper, we identify a long-overlooked yet pervasive issue
in this family of models: a misalignment between the pre-defined noise level
and the actual noise level encoded in intermediate states during sampling. We
refer to this misalignment as noise shift. Through empirical analysis, we
demonstrate that noise shift is widespread in modern diffusion models and
exhibits a systematic bias, leading to sub-optimal generation due to both
out-of-distribution generalization and inaccurate denoising updates. To address
this problem, we propose Noise Awareness Guidance (NAG), a simple yet effective
correction method that explicitly steers sampling trajectories to remain
consistent with the pre-defined noise schedule. We further introduce a
classifier-free variant of NAG, which jointly trains a noise-conditional and a
noise-unconditional model via noise-condition dropout, thereby eliminating the
need for external classifiers. Extensive experiments, including ImageNet
generation and various supervised fine-tuning tasks, show that NAG consistently
mitigates noise shift and substantially improves the generation quality of
mainstream diffusion models.