La guida nel dominio della frequenza consente un campionamento ad alta fedeltà a bassi valori di scala CFG.
Guidance in the Frequency Domain Enables High-Fidelity Sampling at Low CFG Scales
June 24, 2025
Autori: Seyedmorteza Sadat, Tobias Vontobel, Farnood Salehi, Romann M. Weber
cs.AI
Abstract
La guida senza classificatore (Classifier-Free Guidance, CFG) è diventata un componente essenziale dei moderni modelli di diffusione condizionata. Sebbene sia altamente efficace nella pratica, i meccanismi sottostanti attraverso i quali la CFG migliora qualità, dettaglio e allineamento con il prompt non sono ancora completamente compresi. Presentiamo una nuova prospettiva sulla CFG analizzandone gli effetti nel dominio della frequenza, dimostrando che le frequenze basse e alte hanno impatti distinti sulla qualità della generazione. Nello specifico, la guida a bassa frequenza governa la struttura globale e l'allineamento alla condizione, mentre la guida ad alta frequenza migliora principalmente la fedeltà visiva. Tuttavia, applicare una scala uniforme a tutte le frequenze – come avviene nella CFG standard – porta a una sovrasaturazione e a una ridotta diversità a scale elevate e a un degrado della qualità visiva a scale basse. Sulla base di queste intuizioni, proponiamo la guida disaccoppiata in frequenza (Frequency-Decoupled Guidance, FDG), un approccio efficace che scompone la CFG in componenti a bassa e alta frequenza e applica forze di guida separate a ciascuna componente. La FDG migliora la qualità dell'immagine a scale di guida basse ed evita per progettazione gli svantaggi delle scale elevate della CFG. Attraverso esperimenti estesi su più dataset e modelli, dimostriamo che la FDG migliora costantemente la fedeltà dei campioni preservando la diversità, portando a un miglioramento dell'FID e del richiamo rispetto alla CFG, stabilendo il nostro metodo come un'alternativa plug-and-play alla guida senza classificatore standard.
English
Classifier-free guidance (CFG) has become an essential component of modern
conditional diffusion models. Although highly effective in practice, the
underlying mechanisms by which CFG enhances quality, detail, and prompt
alignment are not fully understood. We present a novel perspective on CFG by
analyzing its effects in the frequency domain, showing that low and high
frequencies have distinct impacts on generation quality. Specifically,
low-frequency guidance governs global structure and condition alignment, while
high-frequency guidance mainly enhances visual fidelity. However, applying a
uniform scale across all frequencies -- as is done in standard CFG -- leads to
oversaturation and reduced diversity at high scales and degraded visual quality
at low scales. Based on these insights, we propose frequency-decoupled guidance
(FDG), an effective approach that decomposes CFG into low- and high-frequency
components and applies separate guidance strengths to each component. FDG
improves image quality at low guidance scales and avoids the drawbacks of high
CFG scales by design. Through extensive experiments across multiple datasets
and models, we demonstrate that FDG consistently enhances sample fidelity while
preserving diversity, leading to improved FID and recall compared to CFG,
establishing our method as a plug-and-play alternative to standard
classifier-free guidance.