Échantillonnage par diffusion de bruit coloré

Résumé

Les modèles de diffusion atteignent une synthèse d'images de pointe, leurs trajectoires génératives présentant fondamentalement un biais spectral, résolvant les structures globales basse fréquence tôt et les détails fins haute fréquence plus tard. Les solveurs conventionnels d'équations différentielles stochastiques (SDE) ne tiennent pas compte de cette dynamique, injectant naïvement un bruit blanc uniforme tout au long du processus et gaspillant le budget d'énergie fini. Dans ce travail, nous établissons un cadre mathématique qui reconsidère l'inférence SDE comme un transfert d'énergie ciblé et découplé en fréquence. En exploitant ce cadre, nous introduisons l'Échantillonnage par Bruit Coloré (CNS), un nouveau solveur stochastique sans entraînement. Plutôt que d'injecter un bruit blanc uniforme, CNS utilise un programme dynamique dépendant du pas de temps et de la fréquence qui alloue plus efficacement l'énergie injectée vers les bandes de fréquence structurellement non résolues. En exploitant activement le biais spectral inhérent du modèle, CNS oriente systématiquement la distribution générée vers la variété de données réelle. Des expériences approfondies montrent que CNS surpasse significativement les références standard ODE et SDE en tant que substitution de sampler strictement plug-and-play en temps d'inférence, sur diverses architectures (SiT, JiT, FLUX). Comparé à l'échantillonnage standard sur ImageNet-256, CNS obtient des réductions substantielles de FID non guidé, passant de 8,26 à 6,27 sur SiT-XL/2, de 32,39 à 26,69 sur JiT-B/16 et de 11,88 à 8,31 sur JiT-H/16, tout en produisant des améliorations relatives cohérentes du FID avec le Guidage sans Classifieur. La page du projet est disponible à l'adresse https://hadardavidson.github.io/CNS/.

English

Diffusion models achieve state-of-the-art image synthesis, with their generative trajectories fundamentally exhibiting a spectral bias, resolving low-frequency global structures early and high-frequency fine details later. Conventional stochastic differential equation (SDE) solvers fail to account for this dynamic, naively injecting uniform white noise throughout the entire process and misusing the finite energy budget. In this work, we establish a mathematical framework that reconsiders SDE inference as a targeted, frequency-decoupled energy transfer. Leveraging this framework, we introduce Colored Noise Sampling (CNS), a novel, training-free stochastic solver. Rather than injecting uniform white noise, CNS utilizes a dynamic, timestep- and frequency-dependent schedule that more efficiently allocates injected energy toward structurally unresolved frequency bands. By actively exploiting the model's inherent spectral bias, CNS systematically steers the generated distribution toward the true data manifold. Extensive experiments demonstrate that CNS significantly outperforms standard ODE and SDE baselines as a strictly plug-and-play, inference-time sampler substitution across diverse architectures (SiT, JiT, FLUX). Compared to standard sampling on ImageNet-256, CNS achieves substantial unguided FID reductions, improving from 8.26 to 6.27 on SiT-XL/2, 32.39 to 26.69 on JiT-B/16, and 11.88 to 8.31 on JiT-H/16, while yielding consistent relative FID improvements with Classifier-Free Guidance. Project page is available at https://hadardavidson.github.io/CNS/.