La orientación en el dominio de la frecuencia permite un muestreo de alta fidelidad a escalas bajas de CFG.
Guidance in the Frequency Domain Enables High-Fidelity Sampling at Low CFG Scales
June 24, 2025
Autores: Seyedmorteza Sadat, Tobias Vontobel, Farnood Salehi, Romann M. Weber
cs.AI
Resumen
La guía sin clasificador (Classifier-Free Guidance, CFG) se ha convertido en un componente esencial de los modelos modernos de difusión condicional. Aunque es altamente efectiva en la práctica, los mecanismos subyacentes mediante los cuales CFG mejora la calidad, el detalle y la alineación con el prompt no se comprenden completamente. Presentamos una perspectiva novedosa sobre CFG al analizar sus efectos en el dominio de la frecuencia, mostrando que las frecuencias bajas y altas tienen impactos distintos en la calidad de la generación. Específicamente, la guía de baja frecuencia gobierna la estructura global y la alineación con la condición, mientras que la guía de alta frecuencia mejora principalmente la fidelidad visual. Sin embargo, aplicar una escala uniforme en todas las frecuencias —como se hace en CFG estándar— conduce a una sobresaturación y una reducción de la diversidad en escalas altas, así como a una degradación de la calidad visual en escalas bajas. Basándonos en estas observaciones, proponemos la guía desacoplada por frecuencia (Frequency-Decoupled Guidance, FDG), un enfoque efectivo que descompone CFG en componentes de baja y alta frecuencia y aplica fuerzas de guía separadas a cada componente. FDG mejora la calidad de la imagen en escalas de guía bajas y evita los inconvenientes de las escalas altas de CFG por diseño. A través de experimentos exhaustivos en múltiples conjuntos de datos y modelos, demostramos que FDG mejora consistentemente la fidelidad de las muestras mientras preserva la diversidad, lo que resulta en una mejora del FID y el recall en comparación con CFG, estableciendo nuestro método como una alternativa plug-and-play a la guía sin clasificador estándar.
English
Classifier-free guidance (CFG) has become an essential component of modern
conditional diffusion models. Although highly effective in practice, the
underlying mechanisms by which CFG enhances quality, detail, and prompt
alignment are not fully understood. We present a novel perspective on CFG by
analyzing its effects in the frequency domain, showing that low and high
frequencies have distinct impacts on generation quality. Specifically,
low-frequency guidance governs global structure and condition alignment, while
high-frequency guidance mainly enhances visual fidelity. However, applying a
uniform scale across all frequencies -- as is done in standard CFG -- leads to
oversaturation and reduced diversity at high scales and degraded visual quality
at low scales. Based on these insights, we propose frequency-decoupled guidance
(FDG), an effective approach that decomposes CFG into low- and high-frequency
components and applies separate guidance strengths to each component. FDG
improves image quality at low guidance scales and avoids the drawbacks of high
CFG scales by design. Through extensive experiments across multiple datasets
and models, we demonstrate that FDG consistently enhances sample fidelity while
preserving diversity, leading to improved FID and recall compared to CFG,
establishing our method as a plug-and-play alternative to standard
classifier-free guidance.