Orientação de Atenção Normalizada: Orientação Negativa Universal para Modelos de Difusão
Normalized Attention Guidance: Universal Negative Guidance for Diffusion Model
May 27, 2025
Autores: Dar-Yen Chen, Hmrishav Bandyopadhyay, Kai Zou, Yi-Zhe Song
cs.AI
Resumo
A orientação negativa -- a supressão explícita de atributos indesejados -- continua sendo um desafio fundamental em modelos de difusão, particularmente em regimes de amostragem com poucos passos. Embora a Orientação Livre de Classificador (CFG) funcione bem em configurações padrão, ela falha sob compressão agressiva de passos de amostragem devido a previsões divergentes entre os ramos positivo e negativo. Apresentamos a Orientação de Atenção Normalizada (NAG), um mecanismo eficiente e livre de treinamento que aplica extrapolação no espaço de atenção com normalização baseada em L1 e refinamento. A NAG restaura a orientação negativa eficaz onde a CFG colapsa, mantendo a fidelidade. Diferente das abordagens existentes, a NAG generaliza-se através de arquiteturas (UNet, DiT), regimes de amostragem (poucos passos, múltiplos passos) e modalidades (imagem, vídeo), funcionando como um plug-in universal com sobrecarga computacional mínima. Através de experimentação extensiva, demonstramos melhorias consistentes no alinhamento de texto (CLIP Score), fidelidade (FID, PFID) e qualidade percebida por humanos (ImageReward). Nossos estudos de ablação validam cada componente do design, enquanto estudos com usuários confirmam uma preferência significativa pelos resultados guiados por NAG. Como uma abordagem agnóstica ao modelo no tempo de inferência, que não requer retreinamento, a NAG fornece orientação negativa sem esforço para todos os frameworks modernos de difusão -- pseudocódigo no Apêndice!
English
Negative guidance -- explicitly suppressing unwanted attributes -- remains a
fundamental challenge in diffusion models, particularly in few-step sampling
regimes. While Classifier-Free Guidance (CFG) works well in standard settings,
it fails under aggressive sampling step compression due to divergent
predictions between positive and negative branches. We present Normalized
Attention Guidance (NAG), an efficient, training-free mechanism that applies
extrapolation in attention space with L1-based normalization and refinement.
NAG restores effective negative guidance where CFG collapses while maintaining
fidelity. Unlike existing approaches, NAG generalizes across architectures
(UNet, DiT), sampling regimes (few-step, multi-step), and modalities (image,
video), functioning as a universal plug-in with minimal computational
overhead. Through extensive experimentation, we demonstrate consistent
improvements in text alignment (CLIP Score), fidelity (FID, PFID), and
human-perceived quality (ImageReward). Our ablation studies validate each
design component, while user studies confirm significant preference for
NAG-guided outputs. As a model-agnostic inference-time approach requiring no
retraining, NAG provides effortless negative guidance for all modern diffusion
frameworks -- pseudocode in the Appendix!