Guidance d'Attention Normalisée : Une Guidance Négative Universelle pour les Modèles de Diffusion

papers.abstract

Le guidage négatif -- la suppression explicite d'attributs indésirables -- reste un défi fondamental dans les modèles de diffusion, en particulier dans les régimes d'échantillonnage à faible nombre d'étapes. Bien que le guidage sans classifieur (Classifier-Free Guidance, CFG) fonctionne bien dans des configurations standard, il échoue sous une compression agressive des étapes d'échantillonnage en raison de prédictions divergentes entre les branches positives et négatives. Nous présentons le guidage par attention normalisée (Normalized Attention Guidance, NAG), un mécanisme efficace et sans entraînement qui applique une extrapolation dans l'espace d'attention avec une normalisation et un raffinement basés sur la norme L1. NAG rétablit un guidage négatif efficace là où CFG échoue, tout en maintenant la fidélité. Contrairement aux approches existantes, NAG se généralise à travers les architectures (UNet, DiT), les régimes d'échantillonnage (à faible nombre d'étapes, multi-étapes) et les modalités (image, vidéo), fonctionnant comme un module universel avec une surcharge computationnelle minimale. Grâce à une expérimentation approfondie, nous démontrons des améliorations constantes dans l'alignement textuel (score CLIP), la fidélité (FID, PFID) et la qualité perçue par les humains (ImageReward). Nos études d'ablation valident chaque composant de conception, tandis que les études utilisateurs confirment une préférence significative pour les sorties guidées par NAG. En tant qu'approche agnostique au modèle et fonctionnant à l'inférence sans nécessiter de réentraînement, NAG offre un guidage négatif sans effort pour tous les frameworks de diffusion modernes -- le pseudocode est disponible en annexe !

English

Negative guidance -- explicitly suppressing unwanted attributes -- remains a fundamental challenge in diffusion models, particularly in few-step sampling regimes. While Classifier-Free Guidance (CFG) works well in standard settings, it fails under aggressive sampling step compression due to divergent predictions between positive and negative branches. We present Normalized Attention Guidance (NAG), an efficient, training-free mechanism that applies extrapolation in attention space with L1-based normalization and refinement. NAG restores effective negative guidance where CFG collapses while maintaining fidelity. Unlike existing approaches, NAG generalizes across architectures (UNet, DiT), sampling regimes (few-step, multi-step), and modalities (image, video), functioning as a universal plug-in with minimal computational overhead. Through extensive experimentation, we demonstrate consistent improvements in text alignment (CLIP Score), fidelity (FID, PFID), and human-perceived quality (ImageReward). Our ablation studies validate each design component, while user studies confirm significant preference for NAG-guided outputs. As a model-agnostic inference-time approach requiring no retraining, NAG provides effortless negative guidance for all modern diffusion frameworks -- pseudocode in the Appendix!

Guidance d'Attention Normalisée : Une Guidance Négative Universelle pour les Modèles de Diffusion

Normalized Attention Guidance: Universal Negative Guidance for Diffusion Model

papers.abstract

Support