ChatPaper.aiChatPaper

L'orientation dans le domaine fréquentiel permet un échantillonnage haute fidélité à faible échelle CFG

Guidance in the Frequency Domain Enables High-Fidelity Sampling at Low CFG Scales

June 24, 2025
Auteurs: Seyedmorteza Sadat, Tobias Vontobel, Farnood Salehi, Romann M. Weber
cs.AI

Résumé

La guidance sans classifieur (Classifier-Free Guidance, CFG) est devenue un composant essentiel des modèles de diffusion conditionnels modernes. Bien que très efficace en pratique, les mécanismes sous-jacents par lesquels la CFG améliore la qualité, les détails et l'alignement avec les prompts ne sont pas entièrement compris. Nous proposons une nouvelle perspective sur la CFG en analysant ses effets dans le domaine fréquentiel, montrant que les basses et hautes fréquences ont des impacts distincts sur la qualité de génération. Plus précisément, la guidance en basse fréquence gouverne la structure globale et l'alignement avec la condition, tandis que la guidance en haute fréquence améliore principalement la fidélité visuelle. Cependant, l'application d'une échelle uniforme à toutes les fréquences -- comme c'est le cas dans la CFG standard -- entraîne une sursaturation et une réduction de la diversité à haute échelle, ainsi qu'une dégradation de la qualité visuelle à basse échelle. Sur la base de ces observations, nous proposons la guidance découplée en fréquence (Frequency-Decoupled Guidance, FDG), une approche efficace qui décompose la CFG en composantes de basse et haute fréquences et applique des forces de guidance distinctes à chaque composante. La FDG améliore la qualité des images à faible échelle de guidance et évite par conception les inconvénients des échelles élevées de CFG. À travers des expériences approfondies sur plusieurs jeux de données et modèles, nous démontrons que la FDG améliore systématiquement la fidélité des échantillons tout en préservant la diversité, conduisant à une amélioration des scores FID et de rappel par rapport à la CFG, établissant ainsi notre méthode comme une alternative plug-and-play à la guidance sans classifieur standard.
English
Classifier-free guidance (CFG) has become an essential component of modern conditional diffusion models. Although highly effective in practice, the underlying mechanisms by which CFG enhances quality, detail, and prompt alignment are not fully understood. We present a novel perspective on CFG by analyzing its effects in the frequency domain, showing that low and high frequencies have distinct impacts on generation quality. Specifically, low-frequency guidance governs global structure and condition alignment, while high-frequency guidance mainly enhances visual fidelity. However, applying a uniform scale across all frequencies -- as is done in standard CFG -- leads to oversaturation and reduced diversity at high scales and degraded visual quality at low scales. Based on these insights, we propose frequency-decoupled guidance (FDG), an effective approach that decomposes CFG into low- and high-frequency components and applies separate guidance strengths to each component. FDG improves image quality at low guidance scales and avoids the drawbacks of high CFG scales by design. Through extensive experiments across multiple datasets and models, we demonstrate that FDG consistently enhances sample fidelity while preserving diversity, leading to improved FID and recall compared to CFG, establishing our method as a plug-and-play alternative to standard classifier-free guidance.
PDF102June 25, 2025