ChatPaper.aiChatPaper

Orientação no Domínio da Frequência Permite Amostragem de Alta Fidelidade em Escalas Baixas de CFG

Guidance in the Frequency Domain Enables High-Fidelity Sampling at Low CFG Scales

June 24, 2025
Autores: Seyedmorteza Sadat, Tobias Vontobel, Farnood Salehi, Romann M. Weber
cs.AI

Resumo

A orientação sem classificador (Classifier-free Guidance - CFG) tornou-se um componente essencial dos modernos modelos de difusão condicional. Embora altamente eficaz na prática, os mecanismos subjacentes pelos quais a CFG melhora a qualidade, os detalhes e o alinhamento com o prompt não são totalmente compreendidos. Apresentamos uma nova perspectiva sobre a CFG ao analisar seus efeitos no domínio da frequência, mostrando que as frequências baixas e altas têm impactos distintos na qualidade da geração. Especificamente, a orientação de baixa frequência governa a estrutura global e o alinhamento da condição, enquanto a orientação de alta frequência principalmente melhora a fidelidade visual. No entanto, aplicar uma escala uniforme em todas as frequências -- como é feito na CFG padrão -- leva à supersaturação e à redução da diversidade em escalas altas e à degradação da qualidade visual em escalas baixas. Com base nessas percepções, propomos a orientação desacoplada por frequência (Frequency-Decoupled Guidance - FDG), uma abordagem eficaz que decompõe a CFG em componentes de baixa e alta frequência e aplica forças de orientação separadas a cada componente. A FDG melhora a qualidade da imagem em escalas de orientação baixas e evita as desvantagens das escalas altas de CFG por design. Através de extensos experimentos em múltiplos conjuntos de dados e modelos, demonstramos que a FDG consistentemente melhora a fidelidade das amostras enquanto preserva a diversidade, levando a melhorias no FID e no recall em comparação com a CFG, estabelecendo nosso método como uma alternativa plug-and-play à orientação sem classificador padrão.
English
Classifier-free guidance (CFG) has become an essential component of modern conditional diffusion models. Although highly effective in practice, the underlying mechanisms by which CFG enhances quality, detail, and prompt alignment are not fully understood. We present a novel perspective on CFG by analyzing its effects in the frequency domain, showing that low and high frequencies have distinct impacts on generation quality. Specifically, low-frequency guidance governs global structure and condition alignment, while high-frequency guidance mainly enhances visual fidelity. However, applying a uniform scale across all frequencies -- as is done in standard CFG -- leads to oversaturation and reduced diversity at high scales and degraded visual quality at low scales. Based on these insights, we propose frequency-decoupled guidance (FDG), an effective approach that decomposes CFG into low- and high-frequency components and applies separate guidance strengths to each component. FDG improves image quality at low guidance scales and avoids the drawbacks of high CFG scales by design. Through extensive experiments across multiple datasets and models, we demonstrate that FDG consistently enhances sample fidelity while preserving diversity, leading to improved FID and recall compared to CFG, establishing our method as a plug-and-play alternative to standard classifier-free guidance.
PDF133June 25, 2025