Farbiges-Rauschen-Diffusionssampling

Zusammenfassung

Diffusionsmodelle erzielen eine hochmoderne Bildsynthese, wobei ihre generativen Trajektorien grundlegend einen spektralen Bias aufweisen: Sie lösen zunächst niederfrequente globale Strukturen und später hochfrequente feine Details. Konventionelle Löser für stochastische Differentialgleichungen (SDE) berücksichtigen diese Dynamik nicht, injizieren naiv gleichmäßiges weißes Rauschen während des gesamten Prozesses und nutzen das endliche Energiebudget falsch. In dieser Arbeit etablieren wir einen mathematischen Rahmen, der die SDE-Inferenz als eine gezielte, frequenzentkoppelte Energieübertragung neu betrachtet. Aufbauend auf diesem Rahmen stellen wir Colored Noise Sampling (CNS) vor, einen neuartigen, trainingfreien stochastischen Löser. Anstatt gleichmäßiges weißes Rauschen zu injizieren, nutzt CNS einen dynamischen, zeit- und frequenzabhängigen Zeitplan, der die injizierte Energie effizienter auf strukturell ungelöste Frequenzbänder verteilt. Durch die aktive Ausnutzung des inhärenten spektralen Bias des Modells lenkt CNS die erzeugte Verteilung systematisch in Richtung der wahren Datenmannigfaltigkeit. Umfangreiche Experimente zeigen, dass CNS als strenger Plug-and-Play-Ersatz für den Inferenz-Sampler über verschiedene Architekturen (SiT, JiT, FLUX) hinweg deutlich besser abschneidet als Standard-ODE- und SDE-Baselines. Verglichen mit dem Standard-Sampling auf ImageNet-256 erzielt CNS erhebliche ungeführte FID-Reduktionen: von 8,26 auf 6,27 bei SiT-XL/2, von 32,39 auf 26,69 bei JiT-B/16 und von 11,88 auf 8,31 bei JiT-H/16, während mit Classifier-Free Guidance durchgängig relative FID-Verbesserungen erzielt werden. Die Projektseite ist verfügbar unter https://hadardavidson.github.io/CNS/.

English

Diffusion models achieve state-of-the-art image synthesis, with their generative trajectories fundamentally exhibiting a spectral bias, resolving low-frequency global structures early and high-frequency fine details later. Conventional stochastic differential equation (SDE) solvers fail to account for this dynamic, naively injecting uniform white noise throughout the entire process and misusing the finite energy budget. In this work, we establish a mathematical framework that reconsiders SDE inference as a targeted, frequency-decoupled energy transfer. Leveraging this framework, we introduce Colored Noise Sampling (CNS), a novel, training-free stochastic solver. Rather than injecting uniform white noise, CNS utilizes a dynamic, timestep- and frequency-dependent schedule that more efficiently allocates injected energy toward structurally unresolved frequency bands. By actively exploiting the model's inherent spectral bias, CNS systematically steers the generated distribution toward the true data manifold. Extensive experiments demonstrate that CNS significantly outperforms standard ODE and SDE baselines as a strictly plug-and-play, inference-time sampler substitution across diverse architectures (SiT, JiT, FLUX). Compared to standard sampling on ImageNet-256, CNS achieves substantial unguided FID reductions, improving from 8.26 to 6.27 on SiT-XL/2, 32.39 to 26.69 on JiT-B/16, and 11.88 to 8.31 on JiT-H/16, while yielding consistent relative FID improvements with Classifier-Free Guidance. Project page is available at https://hadardavidson.github.io/CNS/.