ChatPaper.aiChatPaper

正規化アテンションガイダンス:拡散モデルにおける普遍的なネガティブガイダンス

Normalized Attention Guidance: Universal Negative Guidance for Diffusion Model

May 27, 2025
著者: Dar-Yen Chen, Hmrishav Bandyopadhyay, Kai Zou, Yi-Zhe Song
cs.AI

要旨

ネガティブガイダンス(望ましくない属性を明示的に抑制すること)は、特に少ステップサンプリング体制において、拡散モデルにおける基本的な課題として残っています。Classifier-Free Guidance(CFG)は標準的な設定ではうまく機能しますが、サンプリングステップの大幅な圧縮下では、ポジティブブランチとネガティブブランチの予測が乖離するため失敗します。本論文では、Normalized Attention Guidance(NAG)を提案します。これは、L1ベースの正規化と精緻化を伴うアテンション空間での外挿を適用する、効率的でトレーニング不要なメカニズムです。NAGは、CFGが崩壊する状況下でも効果的なネガティブガイダンスを復元しつつ、忠実度を維持します。既存のアプローチとは異なり、NAGはアーキテクチャ(UNet、DiT)、サンプリング体制(少ステップ、多ステップ)、モダリティ(画像、動画)を横断して汎用的に機能し、最小限の計算オーバーヘッドでユニバーサルプラグインとして動作します。広範な実験を通じて、テキストアライメント(CLIPスコア)、忠実度(FID、PFID)、人間が知覚する品質(ImageReward)において一貫した改善を示します。アブレーションスタディは各設計要素を検証し、ユーザースタディはNAGガイド出力に対する有意な選好を確認します。再トレーニングを必要としないモデル非依存の推論時アプローチとして、NAGはすべての最新の拡散フレームワークに対して容易なネガティブガイダンスを提供します(付録に疑似コードあり!)。
English
Negative guidance -- explicitly suppressing unwanted attributes -- remains a fundamental challenge in diffusion models, particularly in few-step sampling regimes. While Classifier-Free Guidance (CFG) works well in standard settings, it fails under aggressive sampling step compression due to divergent predictions between positive and negative branches. We present Normalized Attention Guidance (NAG), an efficient, training-free mechanism that applies extrapolation in attention space with L1-based normalization and refinement. NAG restores effective negative guidance where CFG collapses while maintaining fidelity. Unlike existing approaches, NAG generalizes across architectures (UNet, DiT), sampling regimes (few-step, multi-step), and modalities (image, video), functioning as a universal plug-in with minimal computational overhead. Through extensive experimentation, we demonstrate consistent improvements in text alignment (CLIP Score), fidelity (FID, PFID), and human-perceived quality (ImageReward). Our ablation studies validate each design component, while user studies confirm significant preference for NAG-guided outputs. As a model-agnostic inference-time approach requiring no retraining, NAG provides effortless negative guidance for all modern diffusion frameworks -- pseudocode in the Appendix!
PDF83June 3, 2025