Guida alle Perturbazioni a Grana Fine tramite Selezione delle Teste di Attenzione
Fine-Grained Perturbation Guidance via Attention Head Selection
June 12, 2025
Autori: Donghoon Ahn, Jiwon Kang, Sanghyun Lee, Minjae Kim, Jaewon Min, Wooseok Jang, Saungwu Lee, Sayak Paul, Susung Hong, Seungryong Kim
cs.AI
Abstract
I recenti metodi di guida nei modelli di diffusione dirigono il campionamento inverso perturbando il modello per costruire un modello debole implicito e guidare la generazione lontano da esso. Tra questi approcci, la perturbazione dell'attenzione ha dimostrato forti prestazioni empiriche in scenari incondizionati dove la guida senza classificatore non è applicabile. Tuttavia, i metodi esistenti di perturbazione dell'attenzione mancano di approcci principiati per determinare dove dovrebbero essere applicate le perturbazioni, specialmente nelle architetture Diffusion Transformer (DiT) dove i calcoli rilevanti per la qualità sono distribuiti tra i livelli. In questo articolo, investigiamo la granularità delle perturbazioni dell'attenzione, dal livello del livello fino ai singoli head di attenzione, e scopriamo che specifici head governano concetti visivi distinti come struttura, stile e qualità della texture. Basandoci su questa intuizione, proponiamo "HeadHunter", un framework sistematico per selezionare iterativamente gli head di attenzione che si allineano con obiettivi centrati sull'utente, consentendo un controllo fine sulla qualità della generazione e sugli attributi visivi. Inoltre, introduciamo SoftPAG, che interpola linearmente la mappa di attenzione di ciascun head selezionato verso una matrice identità, fornendo una manopola continua per regolare la forza della perturbazione e sopprimere gli artefatti. Il nostro approccio non solo mitiga i problemi di eccessiva levigatezza delle perturbazioni a livello di livello esistenti, ma consente anche la manipolazione mirata di specifici stili visivi attraverso la selezione compositiva degli head. Validiamo il nostro metodo su moderni modelli DiT su larga scala per la generazione di immagini da testo, inclusi Stable Diffusion 3 e FLUX.1, dimostrando prestazioni superiori sia nel miglioramento della qualità generale che nella guida specifica per lo stile. Il nostro lavoro fornisce la prima analisi a livello di head della perturbazione dell'attenzione nei modelli di diffusione, scoprendo una specializzazione interpretabile all'interno dei livelli di attenzione e consentendo la progettazione pratica di strategie di perturbazione efficaci.
English
Recent guidance methods in diffusion models steer reverse sampling by
perturbing the model to construct an implicit weak model and guide generation
away from it. Among these approaches, attention perturbation has demonstrated
strong empirical performance in unconditional scenarios where classifier-free
guidance is not applicable. However, existing attention perturbation methods
lack principled approaches for determining where perturbations should be
applied, particularly in Diffusion Transformer (DiT) architectures where
quality-relevant computations are distributed across layers. In this paper, we
investigate the granularity of attention perturbations, ranging from the layer
level down to individual attention heads, and discover that specific heads
govern distinct visual concepts such as structure, style, and texture quality.
Building on this insight, we propose "HeadHunter", a systematic framework for
iteratively selecting attention heads that align with user-centric objectives,
enabling fine-grained control over generation quality and visual attributes. In
addition, we introduce SoftPAG, which linearly interpolates each selected
head's attention map toward an identity matrix, providing a continuous knob to
tune perturbation strength and suppress artifacts. Our approach not only
mitigates the oversmoothing issues of existing layer-level perturbation but
also enables targeted manipulation of specific visual styles through
compositional head selection. We validate our method on modern large-scale
DiT-based text-to-image models including Stable Diffusion 3 and FLUX.1,
demonstrating superior performance in both general quality enhancement and
style-specific guidance. Our work provides the first head-level analysis of
attention perturbation in diffusion models, uncovering interpretable
specialization within attention layers and enabling practical design of
effective perturbation strategies.