Нормализованное управление вниманием: универсальное негативное управление для диффузионной модели
Normalized Attention Guidance: Universal Negative Guidance for Diffusion Model
May 27, 2025
Авторы: Dar-Yen Chen, Hmrishav Bandyopadhyay, Kai Zou, Yi-Zhe Song
cs.AI
Аннотация
Негативное управление — явное подавление нежелательных атрибутов — остается фундаментальной проблемой в диффузионных моделях, особенно в режимах выборки с малым количеством шагов. Хотя метод Classifier-Free Guidance (CFG) хорошо работает в стандартных условиях, он терпит неудачу при агрессивном сжатии шагов выборки из-за расходящихся предсказаний между положительными и отрицательными ветвями. Мы представляем Normalized Attention Guidance (NAG) — эффективный механизм, не требующий обучения, который применяет экстраполяцию в пространстве внимания с L1-нормализацией и уточнением. NAG восстанавливает эффективное негативное управление там, где CFG терпит крах, сохраняя при этом точность. В отличие от существующих подходов, NAG обобщается на различные архитектуры (UNet, DiT), режимы выборки (малошаговые, многошаговые) и модальности (изображения, видео), функционируя как универсальный плагин с минимальными вычислительными затратами. В ходе обширных экспериментов мы демонстрируем последовательные улучшения в согласованности текста (CLIP Score), точности (FID, PFID) и воспринимаемом человеком качестве (ImageReward). Наши исследования по абляции подтверждают каждый компонент дизайна, а пользовательские исследования подтверждают значительное предпочтение выходных данных, управляемых NAG. Как модель-агностический подход на этапе вывода, не требующий повторного обучения, NAG обеспечивает легкое негативное управление для всех современных диффузионных фреймворков — псевдокод приведен в Приложении!
English
Negative guidance -- explicitly suppressing unwanted attributes -- remains a
fundamental challenge in diffusion models, particularly in few-step sampling
regimes. While Classifier-Free Guidance (CFG) works well in standard settings,
it fails under aggressive sampling step compression due to divergent
predictions between positive and negative branches. We present Normalized
Attention Guidance (NAG), an efficient, training-free mechanism that applies
extrapolation in attention space with L1-based normalization and refinement.
NAG restores effective negative guidance where CFG collapses while maintaining
fidelity. Unlike existing approaches, NAG generalizes across architectures
(UNet, DiT), sampling regimes (few-step, multi-step), and modalities (image,
video), functioning as a universal plug-in with minimal computational
overhead. Through extensive experimentation, we demonstrate consistent
improvements in text alignment (CLIP Score), fidelity (FID, PFID), and
human-perceived quality (ImageReward). Our ablation studies validate each
design component, while user studies confirm significant preference for
NAG-guided outputs. As a model-agnostic inference-time approach requiring no
retraining, NAG provides effortless negative guidance for all modern diffusion
frameworks -- pseudocode in the Appendix!