Normalisierte Aufmerksamkeitssteuerung: Universelle negative Steuerung für Diffusionsmodelle
Normalized Attention Guidance: Universal Negative Guidance for Diffusion Model
May 27, 2025
Autoren: Dar-Yen Chen, Hmrishav Bandyopadhyay, Kai Zou, Yi-Zhe Song
cs.AI
Zusammenfassung
Negative Guidance – die explizite Unterdrückung unerwünschter Attribute – bleibt eine grundlegende Herausforderung in Diffusionsmodellen, insbesondere bei Sampling-Verfahren mit wenigen Schritten. Während Classifier-Free Guidance (CFG) in Standardeinstellungen gut funktioniert, versagt es bei aggressiver Kompression der Sampling-Schritte aufgrund divergierender Vorhersagen zwischen positiven und negativen Zweigen. Wir präsentieren Normalized Attention Guidance (NAG), einen effizienten, trainingsfreien Mechanismus, der Extrapolation im Aufmerksamkeitsraum mit L1-basierter Normalisierung und Verfeinerung anwendet. NAG stellt eine effektive Negative Guidance wieder her, wo CFG versagt, und bewahrt dabei die Bildtreue. Im Gegensatz zu bestehenden Ansätzen generalisiert NAG über Architekturen (UNet, DiT), Sampling-Regime (wenige Schritte, mehrere Schritte) und Modalitäten (Bild, Video) hinweg und fungiert als universelles Plug-in mit minimalem Rechenaufwand. Durch umfangreiche Experimente zeigen wir konsistente Verbesserungen in der Textausrichtung (CLIP Score), der Bildtreue (FID, PFID) und der vom Menschen wahrgenommenen Qualität (ImageReward). Unsere Ablationsstudien validieren jede Designkomponente, während Benutzerstudien eine signifikante Präferenz für NAG-gesteuerte Ausgaben bestätigen. Als modellagnostischer Ansatz zur Inferenzzeit, der kein erneutes Training erfordert, bietet NAG mühelose Negative Guidance für alle modernen Diffusionsframeworks – Pseudocode im Anhang!
English
Negative guidance -- explicitly suppressing unwanted attributes -- remains a
fundamental challenge in diffusion models, particularly in few-step sampling
regimes. While Classifier-Free Guidance (CFG) works well in standard settings,
it fails under aggressive sampling step compression due to divergent
predictions between positive and negative branches. We present Normalized
Attention Guidance (NAG), an efficient, training-free mechanism that applies
extrapolation in attention space with L1-based normalization and refinement.
NAG restores effective negative guidance where CFG collapses while maintaining
fidelity. Unlike existing approaches, NAG generalizes across architectures
(UNet, DiT), sampling regimes (few-step, multi-step), and modalities (image,
video), functioning as a universal plug-in with minimal computational
overhead. Through extensive experimentation, we demonstrate consistent
improvements in text alignment (CLIP Score), fidelity (FID, PFID), and
human-perceived quality (ImageReward). Our ablation studies validate each
design component, while user studies confirm significant preference for
NAG-guided outputs. As a model-agnostic inference-time approach requiring no
retraining, NAG provides effortless negative guidance for all modern diffusion
frameworks -- pseudocode in the Appendix!