gekleurde ruis diffusiesampling

Samenvatting

Diffusiemodellen bereiken state-of-the-art beeldsynthese, waarbij hun generatieve trajectoriën fundamenteel een spectrale bias vertonen: ze lossen laagfrequente globale structuren vroeg op en hoogfrequente fijne details later. Conventionele stochastische differentiaalvergelijking (SDE)-oplossers houden geen rekening met deze dynamiek; ze injecteren naïef uniforme witte ruis gedurende het gehele proces en misbruiken het eindige energiebudget. In dit werk stellen we een wiskundig raamwerk vast dat SDE-inferentie herziet als een gerichte, frequentie-ontkoppelde energieoverdracht. Met behulp van dit raamwerk introduceren we Colored Noise Sampling (CNS), een nieuwe, training-vrije stochastische oplosser. In plaats van uniforme witte ruis te injecteren, gebruikt CNS een dynamisch, tijdstap- en frequentieafhankelijk schema dat de geïnjecteerde energie efficiënter toewijst aan structureel onopgeloste frequentiebanden. Door actief gebruik te maken van de inherente spectrale bias van het model, stuurt CNS systematisch de gegenereerde verdeling naar de ware datamanifold. Uitgebreide experimenten tonen aan dat CNS aanzienlijk beter presteert dan standaard ODE- en SDE-baselines als een strikt plug-and-play, inferentie-tijd sampler-substitutie voor diverse architecturen (SiT, JiT, FLUX). Vergeleken met standaard sampling op ImageNet-256 behaalt CNS substantiële ongeleide FID-verlagingen, van 8,26 naar 6,27 op SiT-XL/2, van 32,39 naar 26,69 op JiT-B/16, en van 11,88 naar 8,31 op JiT-H/16, terwijl er consistente relatieve FID-verbeteringen worden behaald met Classifier-Free Guidance. De projectpagina is beschikbaar op https://hadardavidson.github.io/CNS/.

English

Diffusion models achieve state-of-the-art image synthesis, with their generative trajectories fundamentally exhibiting a spectral bias, resolving low-frequency global structures early and high-frequency fine details later. Conventional stochastic differential equation (SDE) solvers fail to account for this dynamic, naively injecting uniform white noise throughout the entire process and misusing the finite energy budget. In this work, we establish a mathematical framework that reconsiders SDE inference as a targeted, frequency-decoupled energy transfer. Leveraging this framework, we introduce Colored Noise Sampling (CNS), a novel, training-free stochastic solver. Rather than injecting uniform white noise, CNS utilizes a dynamic, timestep- and frequency-dependent schedule that more efficiently allocates injected energy toward structurally unresolved frequency bands. By actively exploiting the model's inherent spectral bias, CNS systematically steers the generated distribution toward the true data manifold. Extensive experiments demonstrate that CNS significantly outperforms standard ODE and SDE baselines as a strictly plug-and-play, inference-time sampler substitution across diverse architectures (SiT, JiT, FLUX). Compared to standard sampling on ImageNet-256, CNS achieves substantial unguided FID reductions, improving from 8.26 to 6.27 on SiT-XL/2, 32.39 to 26.69 on JiT-B/16, and 11.88 to 8.31 on JiT-H/16, while yielding consistent relative FID improvements with Classifier-Free Guidance. Project page is available at https://hadardavidson.github.io/CNS/.