ChatPaper.aiChatPaper

Normalized Attention Guidance: Guida Negativa Universale per i Modelli di Diffusione

Normalized Attention Guidance: Universal Negative Guidance for Diffusion Model

May 27, 2025
Autori: Dar-Yen Chen, Hmrishav Bandyopadhyay, Kai Zou, Yi-Zhe Song
cs.AI

Abstract

La guida negativa -- sopprimere esplicitamente attributi indesiderati -- rimane una sfida fondamentale nei modelli di diffusione, specialmente nei regimi di campionamento a pochi passi. Mentre la Classifier-Free Guidance (CFG) funziona bene in contesti standard, fallisce sotto una compressione aggressiva dei passi di campionamento a causa di previsioni divergenti tra i rami positivo e negativo. Presentiamo la Normalized Attention Guidance (NAG), un meccanismo efficiente e senza necessità di addestramento che applica l'estrapolazione nello spazio di attenzione con normalizzazione basata su L1 e raffinamento. NAG ripristina una guida negativa efficace laddove la CFG collassa, mantenendo la fedeltà. A differenza degli approcci esistenti, NAG si generalizza attraverso architetture (UNet, DiT), regimi di campionamento (pochi passi, multi-passo) e modalità (immagine, video), funzionando come un plug-in universale con un sovraccarico computazionale minimo. Attraverso un'ampia sperimentazione, dimostriamo miglioramenti consistenti nell'allineamento al testo (CLIP Score), nella fedeltà (FID, PFID) e nella qualità percepita dagli esseri umani (ImageReward). I nostri studi di ablazione convalidano ogni componente del design, mentre gli studi sugli utenti confermano una significativa preferenza per gli output guidati da NAG. Come approccio agnostico al modello al momento dell'inferenza che non richiede riaddestramento, NAG fornisce una guida negativa senza sforzo per tutti i moderni framework di diffusione -- pseudocodice nell'Appendice!
English
Negative guidance -- explicitly suppressing unwanted attributes -- remains a fundamental challenge in diffusion models, particularly in few-step sampling regimes. While Classifier-Free Guidance (CFG) works well in standard settings, it fails under aggressive sampling step compression due to divergent predictions between positive and negative branches. We present Normalized Attention Guidance (NAG), an efficient, training-free mechanism that applies extrapolation in attention space with L1-based normalization and refinement. NAG restores effective negative guidance where CFG collapses while maintaining fidelity. Unlike existing approaches, NAG generalizes across architectures (UNet, DiT), sampling regimes (few-step, multi-step), and modalities (image, video), functioning as a universal plug-in with minimal computational overhead. Through extensive experimentation, we demonstrate consistent improvements in text alignment (CLIP Score), fidelity (FID, PFID), and human-perceived quality (ImageReward). Our ablation studies validate each design component, while user studies confirm significant preference for NAG-guided outputs. As a model-agnostic inference-time approach requiring no retraining, NAG provides effortless negative guidance for all modern diffusion frameworks -- pseudocode in the Appendix!
PDF133June 3, 2025