Muestreo de Difusión con Ruido Coloreado

Resumen

Los modelos de difusión logran una síntesis de imágenes de última generación, cuyas trayectorias generativas exhiben fundamentalmente un sesgo espectral, resolviendo primero las estructuras globales de baja frecuencia y luego los detalles finos de alta frecuencia. Los solucionadores convencionales de ecuaciones diferenciales estocásticas (SDE) no tienen en cuenta esta dinámica, inyectando ingenuamente ruido blanco uniforme durante todo el proceso y malgastando el presupuesto de energía finito. En este trabajo, establecemos un marco matemático que replantea la inferencia SDE como una transferencia de energía dirigida y desacoplada en frecuencia. Aprovechando este marco, introducimos el Muestreo con Ruido Coloreado (CNS), un novedoso solucionador estocástico sin entrenamiento. En lugar de inyectar ruido blanco uniforme, CNS utiliza una programación dinámica dependiente del paso de tiempo y de la frecuencia que asigna más eficientemente la energía inyectada hacia las bandas de frecuencia estructuralmente no resueltas. Al explotar activamente el sesgo espectral inherente del modelo, CNS orienta sistemáticamente la distribución generada hacia la variedad de datos verdadera. Experimentos exhaustivos demuestran que CNS supera significativamente a las líneas base estándar de ODE y SDE como una sustitución estrictamente plug-and-play del muestreador en tiempo de inferencia, en diversas arquitecturas (SiT, JiT, FLUX). En comparación con el muestreo estándar en ImageNet-256, CNS logra reducciones sustanciales de FID sin guía, mejorando de 8.26 a 6.27 en SiT-XL/2, de 32.39 a 26.69 en JiT-B/16 y de 11.88 a 8.31 en JiT-H/16, al tiempo que produce mejoras relativas consistentes en FID con la Guía Sin Clasificador. La página del proyecto está disponible en https://hadardavidson.github.io/CNS/.

English

Diffusion models achieve state-of-the-art image synthesis, with their generative trajectories fundamentally exhibiting a spectral bias, resolving low-frequency global structures early and high-frequency fine details later. Conventional stochastic differential equation (SDE) solvers fail to account for this dynamic, naively injecting uniform white noise throughout the entire process and misusing the finite energy budget. In this work, we establish a mathematical framework that reconsiders SDE inference as a targeted, frequency-decoupled energy transfer. Leveraging this framework, we introduce Colored Noise Sampling (CNS), a novel, training-free stochastic solver. Rather than injecting uniform white noise, CNS utilizes a dynamic, timestep- and frequency-dependent schedule that more efficiently allocates injected energy toward structurally unresolved frequency bands. By actively exploiting the model's inherent spectral bias, CNS systematically steers the generated distribution toward the true data manifold. Extensive experiments demonstrate that CNS significantly outperforms standard ODE and SDE baselines as a strictly plug-and-play, inference-time sampler substitution across diverse architectures (SiT, JiT, FLUX). Compared to standard sampling on ImageNet-256, CNS achieves substantial unguided FID reductions, improving from 8.26 to 6.27 on SiT-XL/2, 32.39 to 26.69 on JiT-B/16, and 11.88 to 8.31 on JiT-H/16, while yielding consistent relative FID improvements with Classifier-Free Guidance. Project page is available at https://hadardavidson.github.io/CNS/.