정규화된 주의 안내: 확산 모델을 위한 보편적 부정적 안내
Normalized Attention Guidance: Universal Negative Guidance for Diffusion Model
May 27, 2025
저자: Dar-Yen Chen, Hmrishav Bandyopadhyay, Kai Zou, Yi-Zhe Song
cs.AI
초록
원치 않는 속성을 명시적으로 억제하는 네거티브 가이던스(negative guidance)는 특히 적은 샘플링 단계에서 여전히 디퓨전 모델의 근본적인 과제로 남아 있습니다. 클래스리어 프리 가이던스(Classifier-Free Guidance, CFG)는 표준 설정에서는 잘 작동하지만, 샘플링 단계가 극단적으로 압축된 경우 양성 및 음성 분기 간의 예측이 달라져 실패합니다. 우리는 L1 기반 정규화 및 개선을 통해 어텐션 공간에서 외삽(extrapolation)을 적용하는 효율적이고 학습이 필요 없는 메커니즘인 정규화 어텐션 가이던스(Normalized Attention Guidance, NAG)를 제안합니다. NAG는 CFG가 실패하는 상황에서도 효과적인 네거티브 가이던스를 복원하면서 충실도를 유지합니다. 기존 접근법과 달리, NAG는 아키텍처(UNet, DiT), 샘플링 방식(적은 단계, 다단계), 모달리티(이미지, 비디오)에 걸쳐 일반화되며, 최소한의 계산 오버헤드로 범용 플러그인으로 기능합니다. 광범위한 실험을 통해 텍스트 정렬(CLIP 점수), 충실도(FID, PFID), 인간이 인지하는 품질(ImageReward)에서 일관된 개선을 입증했습니다. 우리의 어블레이션 연구는 각 설계 요소를 검증했으며, 사용자 연구는 NAG가 가이던스한 출력에 대한 상당한 선호를 확인했습니다. 재학습이 필요 없는 모델-불특정(model-agnostic) 추론 시점 접근법으로서, NAG는 모든 현대 디퓨전 프레임워크에 손쉬운 네거티브 가이던스를 제공합니다. 부록에 의사코드가 있습니다!
English
Negative guidance -- explicitly suppressing unwanted attributes -- remains a
fundamental challenge in diffusion models, particularly in few-step sampling
regimes. While Classifier-Free Guidance (CFG) works well in standard settings,
it fails under aggressive sampling step compression due to divergent
predictions between positive and negative branches. We present Normalized
Attention Guidance (NAG), an efficient, training-free mechanism that applies
extrapolation in attention space with L1-based normalization and refinement.
NAG restores effective negative guidance where CFG collapses while maintaining
fidelity. Unlike existing approaches, NAG generalizes across architectures
(UNet, DiT), sampling regimes (few-step, multi-step), and modalities (image,
video), functioning as a universal plug-in with minimal computational
overhead. Through extensive experimentation, we demonstrate consistent
improvements in text alignment (CLIP Score), fidelity (FID, PFID), and
human-perceived quality (ImageReward). Our ablation studies validate each
design component, while user studies confirm significant preference for
NAG-guided outputs. As a model-agnostic inference-time approach requiring no
retraining, NAG provides effortless negative guidance for all modern diffusion
frameworks -- pseudocode in the Appendix!