周波数領域におけるガイダンスにより低CFGスケールでの高忠実度サンプリングが可能となる
Guidance in the Frequency Domain Enables High-Fidelity Sampling at Low CFG Scales
June 24, 2025
著者: Seyedmorteza Sadat, Tobias Vontobel, Farnood Salehi, Romann M. Weber
cs.AI
要旨
分類器不要ガイダンス(CFG)は、現代の条件付き拡散モデルにおいて不可欠な要素となっている。実践的には非常に効果的であるものの、CFGが品質、詳細、プロンプトの整合性を向上させる根本的なメカニズムは完全には理解されていない。本論文では、CFGの効果を周波数領域で分析することにより、低周波数と高周波数が生成品質に異なる影響を与えることを示す新たな視点を提示する。具体的には、低周波数ガイダンスはグローバルな構造と条件の整合性を制御し、高周波数ガイダンスは主に視覚的な忠実度を向上させる。しかし、すべての周波数に均一なスケールを適用する標準的なCFGでは、高スケールでは過剰な飽和と多様性の低下が生じ、低スケールでは視覚品質が劣化する。これらの知見に基づき、我々は周波数分離ガイダンス(FDG)を提案する。FDGは、CFGを低周波数成分と高周波数成分に分解し、それぞれに異なるガイダンス強度を適用する効果的な手法である。FDGは、低ガイダンススケールでの画像品質を向上させ、高CFGスケールの欠点を設計上回避する。複数のデータセットとモデルにわたる広範な実験を通じて、FDGがサンプルの忠実度を一貫して向上させながら多様性を維持し、CFGと比較してFIDとリコールを改善することを実証し、本手法を標準的な分類器不要ガイダンスのプラグアンドプレイ代替として確立する。
English
Classifier-free guidance (CFG) has become an essential component of modern
conditional diffusion models. Although highly effective in practice, the
underlying mechanisms by which CFG enhances quality, detail, and prompt
alignment are not fully understood. We present a novel perspective on CFG by
analyzing its effects in the frequency domain, showing that low and high
frequencies have distinct impacts on generation quality. Specifically,
low-frequency guidance governs global structure and condition alignment, while
high-frequency guidance mainly enhances visual fidelity. However, applying a
uniform scale across all frequencies -- as is done in standard CFG -- leads to
oversaturation and reduced diversity at high scales and degraded visual quality
at low scales. Based on these insights, we propose frequency-decoupled guidance
(FDG), an effective approach that decomposes CFG into low- and high-frequency
components and applies separate guidance strengths to each component. FDG
improves image quality at low guidance scales and avoids the drawbacks of high
CFG scales by design. Through extensive experiments across multiple datasets
and models, we demonstrate that FDG consistently enhances sample fidelity while
preserving diversity, leading to improved FID and recall compared to CFG,
establishing our method as a plug-and-play alternative to standard
classifier-free guidance.