Guidance de perturbation fine via sélection de têtes d'attention
Fine-Grained Perturbation Guidance via Attention Head Selection
June 12, 2025
Auteurs: Donghoon Ahn, Jiwon Kang, Sanghyun Lee, Minjae Kim, Jaewon Min, Wooseok Jang, Saungwu Lee, Sayak Paul, Susung Hong, Seungryong Kim
cs.AI
Résumé
Les méthodes récentes de guidage dans les modèles de diffusion orientent l'échantillonnage inverse en perturbant le modèle pour construire un modèle faible implicite et guider la génération à l'écart de celui-ci. Parmi ces approches, la perturbation de l'attention a démontré de solides performances empiriques dans des scénarios inconditionnels où le guidage sans classifieur n'est pas applicable. Cependant, les méthodes existantes de perturbation de l'attention manquent d'approches systématiques pour déterminer où les perturbations doivent être appliquées, en particulier dans les architectures de Transformers de Diffusion (DiT) où les calculs pertinents pour la qualité sont répartis sur plusieurs couches. Dans cet article, nous étudions la granularité des perturbations de l'attention, allant du niveau des couches jusqu'aux têtes d'attention individuelles, et découvrons que des têtes spécifiques gouvernent des concepts visuels distincts tels que la structure, le style et la qualité de la texture. Sur la base de cette observation, nous proposons "HeadHunter", un cadre systématique pour sélectionner itérativement les têtes d'attention qui s'alignent sur des objectifs centrés sur l'utilisateur, permettant un contrôle fin de la qualité de génération et des attributs visuels. De plus, nous introduisons SoftPAG, qui interpole linéairement la carte d'attention de chaque tête sélectionnée vers une matrice identité, offrant un réglage continu de la force de perturbation et supprimant les artefacts. Notre approche atténue non seulement les problèmes de sur-lissage des perturbations au niveau des couches existantes, mais permet également une manipulation ciblée de styles visuels spécifiques grâce à une sélection compositionnelle des têtes. Nous validons notre méthode sur des modèles modernes de génération d'images à partir de texte basés sur DiT, notamment Stable Diffusion 3 et FLUX.1, démontrant une performance supérieure à la fois dans l'amélioration générale de la qualité et dans le guidage spécifique au style. Notre travail fournit la première analyse au niveau des têtes de la perturbation de l'attention dans les modèles de diffusion, révélant une spécialisation interprétable au sein des couches d'attention et permettant la conception pratique de stratégies de perturbation efficaces.
English
Recent guidance methods in diffusion models steer reverse sampling by
perturbing the model to construct an implicit weak model and guide generation
away from it. Among these approaches, attention perturbation has demonstrated
strong empirical performance in unconditional scenarios where classifier-free
guidance is not applicable. However, existing attention perturbation methods
lack principled approaches for determining where perturbations should be
applied, particularly in Diffusion Transformer (DiT) architectures where
quality-relevant computations are distributed across layers. In this paper, we
investigate the granularity of attention perturbations, ranging from the layer
level down to individual attention heads, and discover that specific heads
govern distinct visual concepts such as structure, style, and texture quality.
Building on this insight, we propose "HeadHunter", a systematic framework for
iteratively selecting attention heads that align with user-centric objectives,
enabling fine-grained control over generation quality and visual attributes. In
addition, we introduce SoftPAG, which linearly interpolates each selected
head's attention map toward an identity matrix, providing a continuous knob to
tune perturbation strength and suppress artifacts. Our approach not only
mitigates the oversmoothing issues of existing layer-level perturbation but
also enables targeted manipulation of specific visual styles through
compositional head selection. We validate our method on modern large-scale
DiT-based text-to-image models including Stable Diffusion 3 and FLUX.1,
demonstrating superior performance in both general quality enhancement and
style-specific guidance. Our work provides the first head-level analysis of
attention perturbation in diffusion models, uncovering interpretable
specialization within attention layers and enabling practical design of
effective perturbation strategies.