Диффузионное сэмплирование цветного шума

Аннотация

Диффузионные модели достигают передового уровня синтеза изображений, при этом их генеративные траектории принципиально демонстрируют спектральное смещение, разрешая низкочастотные глобальные структуры на ранних этапах, а высокочастотные мелкие детали — на поздних. Традиционные решатели стохастических дифференциальных уравнений (СДУ) не учитывают эту динамику, наивно инжектируя равномерный белый шум на протяжении всего процесса и нерационально расходуя конечный энергетический бюджет. В данной работе мы разрабатываем математическую основу, которая переосмысливает вывод СДУ как целенаправленный, частотно-развязанный перенос энергии. Используя эту основу, мы представляем Выборку с цветным шумом (Colored Noise Sampling, CNS) — новый стохастический решатель, не требующий обучения. Вместо инжекции равномерного белого шума CNS использует динамический график, зависящий от временного шага и частоты, который более эффективно распределяет вводимую энергию в пользу структурно неразрешённых частотных полос. Активно используя присущее модели спектральное смещение, CNS систематически направляет генерируемое распределение к истинному многообразию данных. Обширные эксперименты показывают, что CNS значительно превосходит стандартные базовые решатели ОДУ и СДУ, выступая в качестве строго подключаемой замены сэмплера во время инференса для различных архитектур (SiT, JiT, FLUX). По сравнению со стандартной выборкой на ImageNet-256, CNS обеспечивает существенное снижение FID без управления: улучшение с 8.26 до 6.27 для SiT-XL/2, с 32.39 до 26.69 для JiT-B/16 и с 11.88 до 8.31 для JiT-H/16, а также даёт последовательное относительное улучшение FID при использовании бесклассового руководства. Страница проекта доступна по адресу https://hadardavidson.github.io/CNS/.

English

Diffusion models achieve state-of-the-art image synthesis, with their generative trajectories fundamentally exhibiting a spectral bias, resolving low-frequency global structures early and high-frequency fine details later. Conventional stochastic differential equation (SDE) solvers fail to account for this dynamic, naively injecting uniform white noise throughout the entire process and misusing the finite energy budget. In this work, we establish a mathematical framework that reconsiders SDE inference as a targeted, frequency-decoupled energy transfer. Leveraging this framework, we introduce Colored Noise Sampling (CNS), a novel, training-free stochastic solver. Rather than injecting uniform white noise, CNS utilizes a dynamic, timestep- and frequency-dependent schedule that more efficiently allocates injected energy toward structurally unresolved frequency bands. By actively exploiting the model's inherent spectral bias, CNS systematically steers the generated distribution toward the true data manifold. Extensive experiments demonstrate that CNS significantly outperforms standard ODE and SDE baselines as a strictly plug-and-play, inference-time sampler substitution across diverse architectures (SiT, JiT, FLUX). Compared to standard sampling on ImageNet-256, CNS achieves substantial unguided FID reductions, improving from 8.26 to 6.27 on SiT-XL/2, 32.39 to 26.69 on JiT-B/16, and 11.88 to 8.31 on JiT-H/16, while yielding consistent relative FID improvements with Classifier-Free Guidance. Project page is available at https://hadardavidson.github.io/CNS/.