Orientación de Atención Normalizada: Guía Negativa Universal para Modelos de Difusión
Normalized Attention Guidance: Universal Negative Guidance for Diffusion Model
May 27, 2025
Autores: Dar-Yen Chen, Hmrishav Bandyopadhyay, Kai Zou, Yi-Zhe Song
cs.AI
Resumen
La guía negativa —la supresión explícita de atributos no deseados— sigue siendo un desafío fundamental en los modelos de difusión, particularmente en regímenes de muestreo con pocos pasos. Si bien la Guía Libre de Clasificadores (CFG, por sus siglas en inglés) funciona bien en configuraciones estándar, falla bajo una compresión agresiva de los pasos de muestreo debido a predicciones divergentes entre las ramas positiva y negativa. Presentamos la Guía de Atención Normalizada (NAG, por sus siglas en inglés), un mecanismo eficiente y sin necesidad de entrenamiento que aplica extrapolación en el espacio de atención con normalización y refinamiento basados en L1. NAG restaura la guía negativa efectiva donde CFG colapsa, manteniendo la fidelidad. A diferencia de los enfoques existentes, NAG se generaliza en distintas arquitecturas (UNet, DiT), regímenes de muestreo (pocos pasos, múltiples pasos) y modalidades (imagen, video), funcionando como un complemento universal con un mínimo sobrecosto computacional. A través de una extensa experimentación, demostramos mejoras consistentes en la alineación de texto (Puntaje CLIP), fidelidad (FID, PFID) y calidad percibida por humanos (ImageReward). Nuestros estudios de ablación validan cada componente del diseño, mientras que los estudios de usuarios confirman una preferencia significativa por los resultados guiados por NAG. Como un enfoque agnóstico al modelo en tiempo de inferencia que no requiere reentrenamiento, NAG proporciona una guía negativa sin esfuerzo para todos los marcos modernos de difusión —¡el pseudocódigo está en el Apéndice!
English
Negative guidance -- explicitly suppressing unwanted attributes -- remains a
fundamental challenge in diffusion models, particularly in few-step sampling
regimes. While Classifier-Free Guidance (CFG) works well in standard settings,
it fails under aggressive sampling step compression due to divergent
predictions between positive and negative branches. We present Normalized
Attention Guidance (NAG), an efficient, training-free mechanism that applies
extrapolation in attention space with L1-based normalization and refinement.
NAG restores effective negative guidance where CFG collapses while maintaining
fidelity. Unlike existing approaches, NAG generalizes across architectures
(UNet, DiT), sampling regimes (few-step, multi-step), and modalities (image,
video), functioning as a universal plug-in with minimal computational
overhead. Through extensive experimentation, we demonstrate consistent
improvements in text alignment (CLIP Score), fidelity (FID, PFID), and
human-perceived quality (ImageReward). Our ablation studies validate each
design component, while user studies confirm significant preference for
NAG-guided outputs. As a model-agnostic inference-time approach requiring no
retraining, NAG provides effortless negative guidance for all modern diffusion
frameworks -- pseudocode in the Appendix!