Atténuation du décalage de bruit pour les modèles génératifs de débruitage via un guidage basé sur la conscience du bruit

papers.abstract

Les modèles génératifs de débruitage existants reposent sur la résolution d'équations différentielles stochastiques (EDS) ou d'équations différentielles ordinaires (EDO) inversées discrétisées. Dans cet article, nous identifions un problème longtemps négligé mais omniprésent dans cette famille de modèles : un désalignement entre le niveau de bruit prédéfini et le niveau de bruit réel encodé dans les états intermédiaires lors de l'échantillonnage. Nous désignons ce désalignement comme un décalage de bruit. À travers une analyse empirique, nous démontrons que ce décalage de bruit est répandu dans les modèles de diffusion modernes et présente un biais systématique, conduisant à une génération sous-optimale en raison à la fois d'une généralisation hors distribution et de mises à jour de débruitage inexactes. Pour résoudre ce problème, nous proposons le Noise Awareness Guidance (NAG), une méthode de correction simple mais efficace qui guide explicitement les trajectoires d'échantillonnage pour qu'elles restent cohérentes avec le calendrier de bruit prédéfini. Nous introduisons également une variante sans classifieur de NAG, qui entraîne conjointement un modèle conditionné par le bruit et un modèle non conditionné via l'abandon conditionné par le bruit, éliminant ainsi le besoin de classifieurs externes. Des expériences approfondies, incluant la génération sur ImageNet et diverses tâches de réglage fin supervisé, montrent que NAG atténue systématiquement le décalage de bruit et améliore considérablement la qualité de génération des modèles de diffusion grand public.

English

Existing denoising generative models rely on solving discretized reverse-time SDEs or ODEs. In this paper, we identify a long-overlooked yet pervasive issue in this family of models: a misalignment between the pre-defined noise level and the actual noise level encoded in intermediate states during sampling. We refer to this misalignment as noise shift. Through empirical analysis, we demonstrate that noise shift is widespread in modern diffusion models and exhibits a systematic bias, leading to sub-optimal generation due to both out-of-distribution generalization and inaccurate denoising updates. To address this problem, we propose Noise Awareness Guidance (NAG), a simple yet effective correction method that explicitly steers sampling trajectories to remain consistent with the pre-defined noise schedule. We further introduce a classifier-free variant of NAG, which jointly trains a noise-conditional and a noise-unconditional model via noise-condition dropout, thereby eliminating the need for external classifiers. Extensive experiments, including ImageNet generation and various supervised fine-tuning tasks, show that NAG consistently mitigates noise shift and substantially improves the generation quality of mainstream diffusion models.

Atténuation du décalage de bruit pour les modèles génératifs de débruitage via un guidage basé sur la conscience du bruit

Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance

papers.abstract

Support