ChatPaper.aiChatPaper

Anleitung im Frequenzbereich ermöglicht hochauflösendes Sampling bei niedrigen CFG-Skalierungen

Guidance in the Frequency Domain Enables High-Fidelity Sampling at Low CFG Scales

June 24, 2025
Autoren: Seyedmorteza Sadat, Tobias Vontobel, Farnood Salehi, Romann M. Weber
cs.AI

Zusammenfassung

Classifier-free guidance (CFG) hat sich zu einem wesentlichen Bestandteil moderner bedingter Diffusionsmodelle entwickelt. Obwohl in der Praxis äußerst effektiv, sind die zugrunde liegenden Mechanismen, durch die CFG die Qualität, Detailtreue und Prompt-Ausrichtung verbessert, noch nicht vollständig verstanden. Wir präsentieren eine neuartige Perspektive auf CFG, indem wir seine Auswirkungen im Frequenzbereich analysieren und zeigen, dass niedrige und hohe Frequenzen unterschiedliche Auswirkungen auf die Generierungsqualität haben. Insbesondere steuert die niederfrequente Führung die globale Struktur und die Bedingungsausrichtung, während die hochfrequente Führung hauptsächlich die visuelle Detailtreue verbessert. Die Anwendung einer einheitlichen Skalierung über alle Frequenzen hinweg – wie es im Standard-CFG der Fall ist – führt jedoch bei hohen Skalen zu Übersättigung und reduzierter Diversität sowie bei niedrigen Skalen zu einer Verschlechterung der visuellen Qualität. Basierend auf diesen Erkenntnissen schlagen wir die frequenzentkoppelte Führung (Frequency-Decoupled Guidance, FDG) vor, einen effektiven Ansatz, der CFG in nieder- und hochfrequente Komponenten zerlegt und separate Führungsstärken auf jede Komponente anwendet. FDG verbessert die Bildqualität bei niedrigen Führungsskalen und vermeidet durch seine Konzeption die Nachteile hoher CFG-Skalen. Durch umfangreiche Experimente über mehrere Datensätze und Modelle hinweg zeigen wir, dass FDG die Probenqualität konsistent steigert, während die Diversität erhalten bleibt, was im Vergleich zu CFG zu verbesserten FID- und Recall-Werten führt. Damit etablieren wir unsere Methode als eine Plug-and-Play-Alternative zur standardmäßigen classifier-free guidance.
English
Classifier-free guidance (CFG) has become an essential component of modern conditional diffusion models. Although highly effective in practice, the underlying mechanisms by which CFG enhances quality, detail, and prompt alignment are not fully understood. We present a novel perspective on CFG by analyzing its effects in the frequency domain, showing that low and high frequencies have distinct impacts on generation quality. Specifically, low-frequency guidance governs global structure and condition alignment, while high-frequency guidance mainly enhances visual fidelity. However, applying a uniform scale across all frequencies -- as is done in standard CFG -- leads to oversaturation and reduced diversity at high scales and degraded visual quality at low scales. Based on these insights, we propose frequency-decoupled guidance (FDG), an effective approach that decomposes CFG into low- and high-frequency components and applies separate guidance strengths to each component. FDG improves image quality at low guidance scales and avoids the drawbacks of high CFG scales by design. Through extensive experiments across multiple datasets and models, we demonstrate that FDG consistently enhances sample fidelity while preserving diversity, leading to improved FID and recall compared to CFG, establishing our method as a plug-and-play alternative to standard classifier-free guidance.
PDF102June 25, 2025