Begeleiding in het frequentiedomein maakt hoogwaardige sampling mogelijk bij lage CFG-schalen.
Guidance in the Frequency Domain Enables High-Fidelity Sampling at Low CFG Scales
June 24, 2025
Auteurs: Seyedmorteza Sadat, Tobias Vontobel, Farnood Salehi, Romann M. Weber
cs.AI
Samenvatting
Classifier-free guidance (CFG) is een essentieel onderdeel geworden van moderne conditionele diffusiemodellen. Hoewel het in de praktijk zeer effectief is, zijn de onderliggende mechanismen waarmee CFG kwaliteit, detail en promptafstemming verbetert, nog niet volledig begrepen. Wij presenteren een nieuw perspectief op CFG door de effecten ervan in het frequentiedomein te analyseren, waarbij we aantonen dat lage en hoge frequenties verschillende invloeden hebben op de generatiekwaliteit. Specifiek bepaalt lage-frequentiebegeleiding de globale structuur en conditieafstemming, terwijl hoge-frequentiebegeleiding voornamelijk de visuele kwaliteit verbetert. Het toepassen van een uniforme schaal over alle frequenties – zoals gebeurt in standaard CFG – leidt echter tot oververzadiging en verminderde diversiteit bij hoge schalen en verslechterde visuele kwaliteit bij lage schalen. Op basis van deze inzichten stellen we frequency-decoupled guidance (FDG) voor, een effectieve aanpak die CFG ontbindt in lage- en hoge-frequentiecomponenten en afzonderlijke begeleidingssterktes toepast op elke component. FDG verbetert de beeldkwaliteit bij lage begeleidingsschalen en vermijdt door ontwerp de nadelen van hoge CFG-schalen. Door uitgebreide experimenten over meerdere datasets en modellen tonen we aan dat FDG consistent de steekproefkwaliteit verbetert terwijl diversiteit behouden blijft, wat leidt tot verbeterde FID en recall in vergelijking met CFG, waardoor onze methode zich vestigt als een plug-and-play alternatief voor standaard classifier-free guidance.
English
Classifier-free guidance (CFG) has become an essential component of modern
conditional diffusion models. Although highly effective in practice, the
underlying mechanisms by which CFG enhances quality, detail, and prompt
alignment are not fully understood. We present a novel perspective on CFG by
analyzing its effects in the frequency domain, showing that low and high
frequencies have distinct impacts on generation quality. Specifically,
low-frequency guidance governs global structure and condition alignment, while
high-frequency guidance mainly enhances visual fidelity. However, applying a
uniform scale across all frequencies -- as is done in standard CFG -- leads to
oversaturation and reduced diversity at high scales and degraded visual quality
at low scales. Based on these insights, we propose frequency-decoupled guidance
(FDG), an effective approach that decomposes CFG into low- and high-frequency
components and applies separate guidance strengths to each component. FDG
improves image quality at low guidance scales and avoids the drawbacks of high
CFG scales by design. Through extensive experiments across multiple datasets
and models, we demonstrate that FDG consistently enhances sample fidelity while
preserving diversity, leading to improved FID and recall compared to CFG,
establishing our method as a plug-and-play alternative to standard
classifier-free guidance.