Amostragem de Difusão com Ruído Colorido

Resumo

Modelos de difusão alcançam síntese de imagem de estado da arte, com suas trajetórias generativas apresentando fundamentalmente um viés espectral, resolvendo estruturas globais de baixa frequência no início e detalhes finos de alta frequência posteriormente. Solucionadores convencionais de equações diferenciais estocásticas (EDEs) não levam em conta essa dinâmica, injetando ingenuamente ruído branco uniforme ao longo de todo o processo e utilizando mal o orçamento finito de energia. Neste trabalho, estabelecemos um arcabouço matemático que reconsidera a inferência por EDE como uma transferência de energia direcionada e desacoplada em frequência. Aproveitando esse arcabouço, introduzimos a Amostragem por Ruído Colorido (CNS), um novo solucionador estocástico sem treinamento. Em vez de injetar ruído branco uniforme, a CNS utiliza um cronograma dinâmico dependente do passo temporal e da frequência, que aloca de forma mais eficiente a energia injetada em direção a bandas de frequência estruturalmente não resolvidas. Ao explorar ativamente o viés espectral inerente do modelo, a CNS orienta sistematicamente a distribuição gerada em direção à variedade de dados verdadeira. Extensos experimentos demonstram que a CNS supera significativamente as linhas de base padrão de ODE e EDE como uma substituição estritamente plug-and-play do amostrador em tempo de inferência em diversas arquiteturas (SiT, JiT, FLUX). Em comparação com a amostragem padrão no ImageNet-256, a CNS atinge reduções substanciais de FID não guiado, melhorando de 8,26 para 6,27 no SiT-XL/2, de 32,39 para 26,69 no JiT-B/16 e de 11,88 para 8,31 no JiT-H/16, ao mesmo tempo que produz melhorias consistentes de FID relativo com Orientação Sem Classificador. A página do projeto está disponível em https://hadardavidson.github.io/CNS/.

English

Diffusion models achieve state-of-the-art image synthesis, with their generative trajectories fundamentally exhibiting a spectral bias, resolving low-frequency global structures early and high-frequency fine details later. Conventional stochastic differential equation (SDE) solvers fail to account for this dynamic, naively injecting uniform white noise throughout the entire process and misusing the finite energy budget. In this work, we establish a mathematical framework that reconsiders SDE inference as a targeted, frequency-decoupled energy transfer. Leveraging this framework, we introduce Colored Noise Sampling (CNS), a novel, training-free stochastic solver. Rather than injecting uniform white noise, CNS utilizes a dynamic, timestep- and frequency-dependent schedule that more efficiently allocates injected energy toward structurally unresolved frequency bands. By actively exploiting the model's inherent spectral bias, CNS systematically steers the generated distribution toward the true data manifold. Extensive experiments demonstrate that CNS significantly outperforms standard ODE and SDE baselines as a strictly plug-and-play, inference-time sampler substitution across diverse architectures (SiT, JiT, FLUX). Compared to standard sampling on ImageNet-256, CNS achieves substantial unguided FID reductions, improving from 8.26 to 6.27 on SiT-XL/2, 32.39 to 26.69 on JiT-B/16, and 11.88 to 8.31 on JiT-H/16, while yielding consistent relative FID improvements with Classifier-Free Guidance. Project page is available at https://hadardavidson.github.io/CNS/.