Anleitung im Frequenzbereich ermöglicht hochauflösendes Sampling bei niedrigen CFG-Skalierungen
Guidance in the Frequency Domain Enables High-Fidelity Sampling at Low CFG Scales
June 24, 2025
Autoren: Seyedmorteza Sadat, Tobias Vontobel, Farnood Salehi, Romann M. Weber
cs.AI
Zusammenfassung
Classifier-free guidance (CFG) hat sich zu einem wesentlichen Bestandteil moderner bedingter Diffusionsmodelle entwickelt. Obwohl in der Praxis äußerst effektiv, sind die zugrunde liegenden Mechanismen, durch die CFG die Qualität, Detailtreue und Prompt-Ausrichtung verbessert, noch nicht vollständig verstanden. Wir präsentieren eine neuartige Perspektive auf CFG, indem wir seine Auswirkungen im Frequenzbereich analysieren und zeigen, dass niedrige und hohe Frequenzen unterschiedliche Auswirkungen auf die Generierungsqualität haben. Insbesondere steuert die niederfrequente Führung die globale Struktur und die Bedingungsausrichtung, während die hochfrequente Führung hauptsächlich die visuelle Detailtreue verbessert. Die Anwendung einer einheitlichen Skalierung über alle Frequenzen hinweg – wie es im Standard-CFG der Fall ist – führt jedoch bei hohen Skalen zu Übersättigung und reduzierter Diversität sowie bei niedrigen Skalen zu einer Verschlechterung der visuellen Qualität. Basierend auf diesen Erkenntnissen schlagen wir die frequenzentkoppelte Führung (Frequency-Decoupled Guidance, FDG) vor, einen effektiven Ansatz, der CFG in nieder- und hochfrequente Komponenten zerlegt und separate Führungsstärken auf jede Komponente anwendet. FDG verbessert die Bildqualität bei niedrigen Führungsskalen und vermeidet durch seine Konzeption die Nachteile hoher CFG-Skalen. Durch umfangreiche Experimente über mehrere Datensätze und Modelle hinweg zeigen wir, dass FDG die Probenqualität konsistent steigert, während die Diversität erhalten bleibt, was im Vergleich zu CFG zu verbesserten FID- und Recall-Werten führt. Damit etablieren wir unsere Methode als eine Plug-and-Play-Alternative zur standardmäßigen classifier-free guidance.
English
Classifier-free guidance (CFG) has become an essential component of modern
conditional diffusion models. Although highly effective in practice, the
underlying mechanisms by which CFG enhances quality, detail, and prompt
alignment are not fully understood. We present a novel perspective on CFG by
analyzing its effects in the frequency domain, showing that low and high
frequencies have distinct impacts on generation quality. Specifically,
low-frequency guidance governs global structure and condition alignment, while
high-frequency guidance mainly enhances visual fidelity. However, applying a
uniform scale across all frequencies -- as is done in standard CFG -- leads to
oversaturation and reduced diversity at high scales and degraded visual quality
at low scales. Based on these insights, we propose frequency-decoupled guidance
(FDG), an effective approach that decomposes CFG into low- and high-frequency
components and applies separate guidance strengths to each component. FDG
improves image quality at low guidance scales and avoids the drawbacks of high
CFG scales by design. Through extensive experiments across multiple datasets
and models, we demonstrate that FDG consistently enhances sample fidelity while
preserving diversity, leading to improved FID and recall compared to CFG,
establishing our method as a plug-and-play alternative to standard
classifier-free guidance.