Minderung der Rauschverschiebung für rauschunterdrückende generative Modelle durch Rauschbewusstseinsführung
Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance
October 14, 2025
papers.authors: Jincheng Zhong, Boyuan Jiang, Xin Tao, Pengfei Wan, Kun Gai, Mingsheng Long
cs.AI
papers.abstract
Bestehende denoising-generative Modelle basieren auf der Lösung diskretisierter umgekehrter zeitlicher SDEs oder ODEs. In diesem Artikel identifizieren wir ein lange übersehenes, aber weit verbreitetes Problem in dieser Familie von Modellen: eine Fehlausrichtung zwischen dem vordefinierten Rauschpegel und dem tatsächlichen Rauschpegel, der in Zwischenzuständen während des Sampling-Prozesses kodiert ist. Wir bezeichnen diese Fehlausrichtung als Noise Shift. Durch empirische Analysen zeigen wir, dass Noise Shift in modernen Diffusionsmodellen weit verbreitet ist und einen systematischen Bias aufweist, was zu suboptimaler Generierung aufgrund von Out-of-Distribution-Generalisation und ungenauen Denoising-Updates führt. Um dieses Problem zu lösen, schlagen wir Noise Awareness Guidance (NAG) vor, eine einfache, aber effektive Korrekturmethode, die Sampling-Trajektorien explizit so steuert, dass sie mit dem vordefinierten Rauschplan konsistent bleiben. Wir führen außerdem eine klassifikatorfreie Variante von NAG ein, die ein rauschbedingtes und ein rauschunabhängiges Modell gemeinsam durch Rauschbedingungs-Dropout trainiert, wodurch der Bedarf an externen Klassifikatoren entfällt. Umfangreiche Experimente, einschließlich ImageNet-Generierung und verschiedenen überwachten Feinabstimmungsaufgaben, zeigen, dass NAG Noise Shift konsequent mildert und die Generierungsqualität von Mainstream-Diffusionsmodellen erheblich verbessert.
English
Existing denoising generative models rely on solving discretized reverse-time
SDEs or ODEs. In this paper, we identify a long-overlooked yet pervasive issue
in this family of models: a misalignment between the pre-defined noise level
and the actual noise level encoded in intermediate states during sampling. We
refer to this misalignment as noise shift. Through empirical analysis, we
demonstrate that noise shift is widespread in modern diffusion models and
exhibits a systematic bias, leading to sub-optimal generation due to both
out-of-distribution generalization and inaccurate denoising updates. To address
this problem, we propose Noise Awareness Guidance (NAG), a simple yet effective
correction method that explicitly steers sampling trajectories to remain
consistent with the pre-defined noise schedule. We further introduce a
classifier-free variant of NAG, which jointly trains a noise-conditional and a
noise-unconditional model via noise-condition dropout, thereby eliminating the
need for external classifiers. Extensive experiments, including ImageNet
generation and various supervised fine-tuning tasks, show that NAG consistently
mitigates noise shift and substantially improves the generation quality of
mainstream diffusion models.