노이즈 인식 가이던스를 통한 잡음 생성 모델의 잡음 변화 완화
Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance
October 14, 2025
저자: Jincheng Zhong, Boyuan Jiang, Xin Tao, Pengfei Wan, Kun Gai, Mingsheng Long
cs.AI
초록
기존의 잡음 제거 생성 모델은 이산화된 역시간 SDE(Stochastic Differential Equation) 또는 ODE(Ordinary Differential Equation)를 해결하는 데 의존해 왔다. 본 논문에서는 이러한 모델군에서 오랫동안 간과되었지만 광범위하게 존재하는 문제를 확인하였다: 샘플링 과정 중 중간 상태에 인코딩된 실제 잡음 수준과 사전 정의된 잡음 수준 간의 불일치이다. 우리는 이러한 불일치를 '잡음 편향(noise shift)'이라 명명한다. 실증적 분석을 통해, 잡음 편향이 현대의 확산 모델에서 널리 퍼져 있으며 체계적인 편향을 보임으로써, 분포 외 일반화와 부정확한 잡음 제거 업데이트로 인해 최적이 아닌 생성 결과를 초래함을 입증하였다. 이 문제를 해결하기 위해, 우리는 사전 정의된 잡음 스케줄과 일관되게 샘플링 궤적을 유도하는 간단하지만 효과적인 보정 방법인 '잡음 인식 가이던스(Noise Awareness Guidance, NAG)'를 제안한다. 또한, 외부 분류기를 필요로 하지 않도록 잡음 조건부 및 비조건부 모델을 잡음 조건 드롭아웃을 통해 공동으로 학습하는 NAG의 분류기 없는 변형을 소개한다. ImageNet 생성 및 다양한 지도 미세 조정 작업을 포함한 광범위한 실험을 통해, NAG가 잡음 편향을 지속적으로 완화하고 주류 확산 모델의 생성 품질을 크게 향상시킴을 보여준다.
English
Existing denoising generative models rely on solving discretized reverse-time
SDEs or ODEs. In this paper, we identify a long-overlooked yet pervasive issue
in this family of models: a misalignment between the pre-defined noise level
and the actual noise level encoded in intermediate states during sampling. We
refer to this misalignment as noise shift. Through empirical analysis, we
demonstrate that noise shift is widespread in modern diffusion models and
exhibits a systematic bias, leading to sub-optimal generation due to both
out-of-distribution generalization and inaccurate denoising updates. To address
this problem, we propose Noise Awareness Guidance (NAG), a simple yet effective
correction method that explicitly steers sampling trajectories to remain
consistent with the pre-defined noise schedule. We further introduce a
classifier-free variant of NAG, which jointly trains a noise-conditional and a
noise-unconditional model via noise-condition dropout, thereby eliminating the
need for external classifiers. Extensive experiments, including ImageNet
generation and various supervised fine-tuning tasks, show that NAG consistently
mitigates noise shift and substantially improves the generation quality of
mainstream diffusion models.