L'orientation dans le domaine fréquentiel permet un échantillonnage haute fidélité à faible échelle CFG
Guidance in the Frequency Domain Enables High-Fidelity Sampling at Low CFG Scales
June 24, 2025
Auteurs: Seyedmorteza Sadat, Tobias Vontobel, Farnood Salehi, Romann M. Weber
cs.AI
Résumé
La guidance sans classifieur (Classifier-Free Guidance, CFG) est devenue un composant essentiel des modèles de diffusion conditionnels modernes. Bien que très efficace en pratique, les mécanismes sous-jacents par lesquels la CFG améliore la qualité, les détails et l'alignement avec les prompts ne sont pas entièrement compris. Nous proposons une nouvelle perspective sur la CFG en analysant ses effets dans le domaine fréquentiel, montrant que les basses et hautes fréquences ont des impacts distincts sur la qualité de génération. Plus précisément, la guidance en basse fréquence gouverne la structure globale et l'alignement avec la condition, tandis que la guidance en haute fréquence améliore principalement la fidélité visuelle. Cependant, l'application d'une échelle uniforme à toutes les fréquences -- comme c'est le cas dans la CFG standard -- entraîne une sursaturation et une réduction de la diversité à haute échelle, ainsi qu'une dégradation de la qualité visuelle à basse échelle. Sur la base de ces observations, nous proposons la guidance découplée en fréquence (Frequency-Decoupled Guidance, FDG), une approche efficace qui décompose la CFG en composantes de basse et haute fréquences et applique des forces de guidance distinctes à chaque composante. La FDG améliore la qualité des images à faible échelle de guidance et évite par conception les inconvénients des échelles élevées de CFG. À travers des expériences approfondies sur plusieurs jeux de données et modèles, nous démontrons que la FDG améliore systématiquement la fidélité des échantillons tout en préservant la diversité, conduisant à une amélioration des scores FID et de rappel par rapport à la CFG, établissant ainsi notre méthode comme une alternative plug-and-play à la guidance sans classifieur standard.
English
Classifier-free guidance (CFG) has become an essential component of modern
conditional diffusion models. Although highly effective in practice, the
underlying mechanisms by which CFG enhances quality, detail, and prompt
alignment are not fully understood. We present a novel perspective on CFG by
analyzing its effects in the frequency domain, showing that low and high
frequencies have distinct impacts on generation quality. Specifically,
low-frequency guidance governs global structure and condition alignment, while
high-frequency guidance mainly enhances visual fidelity. However, applying a
uniform scale across all frequencies -- as is done in standard CFG -- leads to
oversaturation and reduced diversity at high scales and degraded visual quality
at low scales. Based on these insights, we propose frequency-decoupled guidance
(FDG), an effective approach that decomposes CFG into low- and high-frequency
components and applies separate guidance strengths to each component. FDG
improves image quality at low guidance scales and avoids the drawbacks of high
CFG scales by design. Through extensive experiments across multiple datasets
and models, we demonstrate that FDG consistently enhances sample fidelity while
preserving diversity, leading to improved FID and recall compared to CFG,
establishing our method as a plug-and-play alternative to standard
classifier-free guidance.