ChatPaper.aiChatPaper

Направляющее воздействие в частотной области обеспечивает высококачественную выборку при низких масштабах CFG

Guidance in the Frequency Domain Enables High-Fidelity Sampling at Low CFG Scales

June 24, 2025
Авторы: Seyedmorteza Sadat, Tobias Vontobel, Farnood Salehi, Romann M. Weber
cs.AI

Аннотация

Классификаторно-независимое управление (Classifier-Free Guidance, CFG) стало важным компонентом современных условных диффузионных моделей. Несмотря на высокую эффективность на практике, механизмы, благодаря которым CFG улучшает качество, детализацию и соответствие запросам, до конца не изучены. Мы предлагаем новый взгляд на CFG, анализируя его эффекты в частотной области, и показываем, что низкие и высокие частоты по-разному влияют на качество генерации. В частности, управление низкими частотами определяет глобальную структуру и соответствие условиям, тогда как управление высокими частотами в основном улучшает визуальную точность. Однако применение единого масштаба ко всем частотам — как это делается в стандартном CFG — приводит к перенасыщению и снижению разнообразия при высоких масштабах, а также к ухудшению визуального качества при низких масштабах. На основе этих наблюдений мы предлагаем частотно-разделенное управление (Frequency-Decoupled Guidance, FDG), эффективный подход, который разлагает CFG на низко- и высокочастотные компоненты и применяет отдельные силы управления к каждому компоненту. FDG улучшает качество изображений при низких масштабах управления и избегает недостатков высоких масштабов CFG по своей конструкции. В ходе обширных экспериментов на множестве наборов данных и моделей мы демонстрируем, что FDG последовательно повышает точность выборок, сохраняя разнообразие, что приводит к улучшению показателей FID и recall по сравнению с CFG, устанавливая наш метод как готовую альтернативу стандартному классификаторно-независимому управлению.
English
Classifier-free guidance (CFG) has become an essential component of modern conditional diffusion models. Although highly effective in practice, the underlying mechanisms by which CFG enhances quality, detail, and prompt alignment are not fully understood. We present a novel perspective on CFG by analyzing its effects in the frequency domain, showing that low and high frequencies have distinct impacts on generation quality. Specifically, low-frequency guidance governs global structure and condition alignment, while high-frequency guidance mainly enhances visual fidelity. However, applying a uniform scale across all frequencies -- as is done in standard CFG -- leads to oversaturation and reduced diversity at high scales and degraded visual quality at low scales. Based on these insights, we propose frequency-decoupled guidance (FDG), an effective approach that decomposes CFG into low- and high-frequency components and applies separate guidance strengths to each component. FDG improves image quality at low guidance scales and avoids the drawbacks of high CFG scales by design. Through extensive experiments across multiple datasets and models, we demonstrate that FDG consistently enhances sample fidelity while preserving diversity, leading to improved FID and recall compared to CFG, establishing our method as a plug-and-play alternative to standard classifier-free guidance.
PDF102June 25, 2025