Fijnmazige versturingsbegeleiding via aandachtskopselectie
Fine-Grained Perturbation Guidance via Attention Head Selection
June 12, 2025
Auteurs: Donghoon Ahn, Jiwon Kang, Sanghyun Lee, Minjae Kim, Jaewon Min, Wooseok Jang, Saungwu Lee, Sayak Paul, Susung Hong, Seungryong Kim
cs.AI
Samenvatting
Recente begeleidingsmethoden in diffusiemodellen sturen de omgekeerde sampling door het model te verstoren om een impliciet zwak model te construeren en de generatie ervan weg te leiden. Onder deze benaderingen heeft aandachtverstoring sterke empirische prestaties getoond in onvoorwaardelijke scenario's waar classifier-free begeleiding niet van toepassing is. Bestaande methoden voor aandachtverstoring missen echter principiële benaderingen om te bepalen waar verstoringen moeten worden toegepast, vooral in Diffusion Transformer (DiT)-architecturen waar kwaliteitsgerelateerde berekeningen over lagen zijn verdeeld. In dit artikel onderzoeken we de granulariteit van aandachtverstoringen, variërend van het laagniveau tot individuele aandachtskoppen, en ontdekken we dat specifieke koppen verschillende visuele concepten beheersen, zoals structuur, stijl en textuurkwaliteit. Op basis van dit inzicht stellen we "HeadHunter" voor, een systematisch framework voor het iteratief selecteren van aandachtskoppen die aansluiten bij gebruikersgerichte doelstellingen, waardoor fijnmazige controle over generatiekwaliteit en visuele attributen mogelijk wordt. Daarnaast introduceren we SoftPAG, dat de aandachtmatrix van elke geselecteerde kop lineair interpoleert naar een identiteitsmatrix, wat een continue knop biedt om de verstoringssterkte af te stemmen en artefacten te onderdrukken. Onze aanpak vermindert niet alleen de overmatige gladheid van bestaande laagniveau verstoring, maar maakt ook gerichte manipulatie van specifieke visuele stijlen mogelijk door compositorische kopselectie. We valideren onze methode op moderne grootschalige DiT-gebaseerde tekst-naar-beeldmodellen, waaronder Stable Diffusion 3 en FLUX.1, en tonen superieure prestaties aan in zowel algemene kwaliteitsverbetering als stijlspecifieke begeleiding. Ons werk biedt de eerste kopniveau-analyse van aandachtverstoring in diffusiemodellen, waarbij interpreteerbare specialisatie binnen aandachtlagen wordt onthuld en praktisch ontwerp van effectieve verstoringsstrategieën mogelijk wordt gemaakt.
English
Recent guidance methods in diffusion models steer reverse sampling by
perturbing the model to construct an implicit weak model and guide generation
away from it. Among these approaches, attention perturbation has demonstrated
strong empirical performance in unconditional scenarios where classifier-free
guidance is not applicable. However, existing attention perturbation methods
lack principled approaches for determining where perturbations should be
applied, particularly in Diffusion Transformer (DiT) architectures where
quality-relevant computations are distributed across layers. In this paper, we
investigate the granularity of attention perturbations, ranging from the layer
level down to individual attention heads, and discover that specific heads
govern distinct visual concepts such as structure, style, and texture quality.
Building on this insight, we propose "HeadHunter", a systematic framework for
iteratively selecting attention heads that align with user-centric objectives,
enabling fine-grained control over generation quality and visual attributes. In
addition, we introduce SoftPAG, which linearly interpolates each selected
head's attention map toward an identity matrix, providing a continuous knob to
tune perturbation strength and suppress artifacts. Our approach not only
mitigates the oversmoothing issues of existing layer-level perturbation but
also enables targeted manipulation of specific visual styles through
compositional head selection. We validate our method on modern large-scale
DiT-based text-to-image models including Stable Diffusion 3 and FLUX.1,
demonstrating superior performance in both general quality enhancement and
style-specific guidance. Our work provides the first head-level analysis of
attention perturbation in diffusion models, uncovering interpretable
specialization within attention layers and enabling practical design of
effective perturbation strategies.