Guidance d'Attention Normalisée : Une Guidance Négative Universelle pour les Modèles de Diffusion
Normalized Attention Guidance: Universal Negative Guidance for Diffusion Model
May 27, 2025
Auteurs: Dar-Yen Chen, Hmrishav Bandyopadhyay, Kai Zou, Yi-Zhe Song
cs.AI
Résumé
Le guidage négatif -- la suppression explicite d'attributs indésirables -- reste un défi fondamental dans les modèles de diffusion, en particulier dans les régimes d'échantillonnage à faible nombre d'étapes. Bien que le guidage sans classifieur (Classifier-Free Guidance, CFG) fonctionne bien dans des configurations standard, il échoue sous une compression agressive des étapes d'échantillonnage en raison de prédictions divergentes entre les branches positives et négatives. Nous présentons le guidage par attention normalisée (Normalized Attention Guidance, NAG), un mécanisme efficace et sans entraînement qui applique une extrapolation dans l'espace d'attention avec une normalisation et un raffinement basés sur la norme L1. NAG rétablit un guidage négatif efficace là où CFG échoue, tout en maintenant la fidélité. Contrairement aux approches existantes, NAG se généralise à travers les architectures (UNet, DiT), les régimes d'échantillonnage (à faible nombre d'étapes, multi-étapes) et les modalités (image, vidéo), fonctionnant comme un module universel avec une surcharge computationnelle minimale. Grâce à une expérimentation approfondie, nous démontrons des améliorations constantes dans l'alignement textuel (score CLIP), la fidélité (FID, PFID) et la qualité perçue par les humains (ImageReward). Nos études d'ablation valident chaque composant de conception, tandis que les études utilisateurs confirment une préférence significative pour les sorties guidées par NAG. En tant qu'approche agnostique au modèle et fonctionnant à l'inférence sans nécessiter de réentraînement, NAG offre un guidage négatif sans effort pour tous les frameworks de diffusion modernes -- le pseudocode est disponible en annexe !
English
Negative guidance -- explicitly suppressing unwanted attributes -- remains a
fundamental challenge in diffusion models, particularly in few-step sampling
regimes. While Classifier-Free Guidance (CFG) works well in standard settings,
it fails under aggressive sampling step compression due to divergent
predictions between positive and negative branches. We present Normalized
Attention Guidance (NAG), an efficient, training-free mechanism that applies
extrapolation in attention space with L1-based normalization and refinement.
NAG restores effective negative guidance where CFG collapses while maintaining
fidelity. Unlike existing approaches, NAG generalizes across architectures
(UNet, DiT), sampling regimes (few-step, multi-step), and modalities (image,
video), functioning as a universal plug-in with minimal computational
overhead. Through extensive experimentation, we demonstrate consistent
improvements in text alignment (CLIP Score), fidelity (FID, PFID), and
human-perceived quality (ImageReward). Our ablation studies validate each
design component, while user studies confirm significant preference for
NAG-guided outputs. As a model-agnostic inference-time approach requiring no
retraining, NAG provides effortless negative guidance for all modern diffusion
frameworks -- pseudocode in the Appendix!