Orientação de Atenção Normalizada: Orientação Negativa Universal para Modelos de Difusão

Resumo

A orientação negativa -- a supressão explícita de atributos indesejados -- continua sendo um desafio fundamental em modelos de difusão, particularmente em regimes de amostragem com poucos passos. Embora a Orientação Livre de Classificador (CFG) funcione bem em configurações padrão, ela falha sob compressão agressiva de passos de amostragem devido a previsões divergentes entre os ramos positivo e negativo. Apresentamos a Orientação de Atenção Normalizada (NAG), um mecanismo eficiente e livre de treinamento que aplica extrapolação no espaço de atenção com normalização baseada em L1 e refinamento. A NAG restaura a orientação negativa eficaz onde a CFG colapsa, mantendo a fidelidade. Diferente das abordagens existentes, a NAG generaliza-se através de arquiteturas (UNet, DiT), regimes de amostragem (poucos passos, múltiplos passos) e modalidades (imagem, vídeo), funcionando como um plug-in universal com sobrecarga computacional mínima. Através de experimentação extensiva, demonstramos melhorias consistentes no alinhamento de texto (CLIP Score), fidelidade (FID, PFID) e qualidade percebida por humanos (ImageReward). Nossos estudos de ablação validam cada componente do design, enquanto estudos com usuários confirmam uma preferência significativa pelos resultados guiados por NAG. Como uma abordagem agnóstica ao modelo no tempo de inferência, que não requer retreinamento, a NAG fornece orientação negativa sem esforço para todos os frameworks modernos de difusão -- pseudocódigo no Apêndice!

English

Negative guidance -- explicitly suppressing unwanted attributes -- remains a fundamental challenge in diffusion models, particularly in few-step sampling regimes. While Classifier-Free Guidance (CFG) works well in standard settings, it fails under aggressive sampling step compression due to divergent predictions between positive and negative branches. We present Normalized Attention Guidance (NAG), an efficient, training-free mechanism that applies extrapolation in attention space with L1-based normalization and refinement. NAG restores effective negative guidance where CFG collapses while maintaining fidelity. Unlike existing approaches, NAG generalizes across architectures (UNet, DiT), sampling regimes (few-step, multi-step), and modalities (image, video), functioning as a universal plug-in with minimal computational overhead. Through extensive experimentation, we demonstrate consistent improvements in text alignment (CLIP Score), fidelity (FID, PFID), and human-perceived quality (ImageReward). Our ablation studies validate each design component, while user studies confirm significant preference for NAG-guided outputs. As a model-agnostic inference-time approach requiring no retraining, NAG provides effortless negative guidance for all modern diffusion frameworks -- pseudocode in the Appendix!

Orientação de Atenção Normalizada: Orientação Negativa Universal para Modelos de Difusão

Normalized Attention Guidance: Universal Negative Guidance for Diffusion Model

Resumo

Support