Genormaliseerde Aandachtsturing: Universele Negatieve Sturing voor Diffusiemodellen
Normalized Attention Guidance: Universal Negative Guidance for Diffusion Model
May 27, 2025
Auteurs: Dar-Yen Chen, Hmrishav Bandyopadhyay, Kai Zou, Yi-Zhe Song
cs.AI
Samenvatting
Negatieve begeleiding -- het expliciet onderdrukken van ongewenste attributen -- blijft een fundamentele uitdaging in diffusiemodellen, met name in regimes met weinig samplingstappen. Hoewel Classifier-Free Guidance (CFG) goed werkt in standaardinstellingen, faalt het onder agressieve compressie van samplingstappen vanwege divergerende voorspellingen tussen positieve en negatieve takken. Wij presenteren Normalized Attention Guidance (NAG), een efficiënt, trainingsvrij mechanisme dat extrapolatie toepast in de aandachtruimte met L1-gebaseerde normalisatie en verfijning. NAG herstelt effectieve negatieve begeleiding waar CFG faalt, terwijl de getrouwheid behouden blijft. In tegenstelling tot bestaande benaderingen, generaliseert NAG over architecturen (UNet, DiT), samplingregimes (weinig-stap, multi-stap) en modaliteiten (beeld, video), en functioneert als een universele plug-in met minimale rekenkundige overhead. Door uitgebreide experimenten tonen we consistente verbeteringen aan in tekstuitlijning (CLIP Score), getrouwheid (FID, PFID) en door mensen waargenomen kwaliteit (ImageReward). Onze ablatiestudies valideren elk ontwerpcomponent, terwijl gebruikersstudies een significante voorkeur voor NAG-geleide uitvoer bevestigen. Als een model-agnostische benadering tijdens inferentie die geen hertraining vereist, biedt NAG moeiteloze negatieve begeleiding voor alle moderne diffusieframeworks -- pseudocode in de Bijlage!
English
Negative guidance -- explicitly suppressing unwanted attributes -- remains a
fundamental challenge in diffusion models, particularly in few-step sampling
regimes. While Classifier-Free Guidance (CFG) works well in standard settings,
it fails under aggressive sampling step compression due to divergent
predictions between positive and negative branches. We present Normalized
Attention Guidance (NAG), an efficient, training-free mechanism that applies
extrapolation in attention space with L1-based normalization and refinement.
NAG restores effective negative guidance where CFG collapses while maintaining
fidelity. Unlike existing approaches, NAG generalizes across architectures
(UNet, DiT), sampling regimes (few-step, multi-step), and modalities (image,
video), functioning as a universal plug-in with minimal computational
overhead. Through extensive experimentation, we demonstrate consistent
improvements in text alignment (CLIP Score), fidelity (FID, PFID), and
human-perceived quality (ImageReward). Our ablation studies validate each
design component, while user studies confirm significant preference for
NAG-guided outputs. As a model-agnostic inference-time approach requiring no
retraining, NAG provides effortless negative guidance for all modern diffusion
frameworks -- pseudocode in the Appendix!