Orientação de Perturbação de Granularidade Fina via Seleção de Cabeças de Atenção
Fine-Grained Perturbation Guidance via Attention Head Selection
June 12, 2025
Autores: Donghoon Ahn, Jiwon Kang, Sanghyun Lee, Minjae Kim, Jaewon Min, Wooseok Jang, Saungwu Lee, Sayak Paul, Susung Hong, Seungryong Kim
cs.AI
Resumo
Métodos recentes de orientação em modelos de difusão direcionam a amostragem reversa perturbando o modelo para construir um modelo fraco implícito e guiar a geração para longe dele. Entre essas abordagens, a perturbação de atenção demonstrou forte desempenho empírico em cenários incondicionais onde a orientação livre de classificadores não é aplicável. No entanto, os métodos existentes de perturbação de atenção carecem de abordagens fundamentadas para determinar onde as perturbações devem ser aplicadas, particularmente em arquiteturas de Transformadores de Difusão (DiT), onde computações relevantes para a qualidade estão distribuídas entre as camadas. Neste artigo, investigamos a granularidade das perturbações de atenção, variando do nível de camada até cabeças de atenção individuais, e descobrimos que cabeças específicas governam conceitos visuais distintos, como estrutura, estilo e qualidade de textura. Com base nessa percepção, propomos "HeadHunter", um framework sistemático para selecionar iterativamente cabeças de atenção que se alinham com objetivos centrados no usuário, permitindo controle refinado sobre a qualidade de geração e atributos visuais. Além disso, introduzimos o SoftPAG, que interpola linearmente o mapa de atenção de cada cabeça selecionada em direção a uma matriz identitária, fornecendo um controle contínuo para ajustar a força da perturbação e suprimir artefatos. Nossa abordagem não apenas mitiga os problemas de suavização excessiva da perturbação em nível de camada existente, mas também permite a manipulação direcionada de estilos visuais específicos por meio da seleção composicional de cabeças. Validamos nosso método em modelos modernos de texto para imagem baseados em DiT em grande escala, incluindo Stable Diffusion 3 e FLUX.1, demonstrando desempenho superior tanto no aprimoramento geral da qualidade quanto na orientação específica de estilo. Nosso trabalho fornece a primeira análise em nível de cabeça de perturbação de atenção em modelos de difusão, revelando especialização interpretável dentro das camadas de atenção e permitindo o projeto prático de estratégias eficazes de perturbação.
English
Recent guidance methods in diffusion models steer reverse sampling by
perturbing the model to construct an implicit weak model and guide generation
away from it. Among these approaches, attention perturbation has demonstrated
strong empirical performance in unconditional scenarios where classifier-free
guidance is not applicable. However, existing attention perturbation methods
lack principled approaches for determining where perturbations should be
applied, particularly in Diffusion Transformer (DiT) architectures where
quality-relevant computations are distributed across layers. In this paper, we
investigate the granularity of attention perturbations, ranging from the layer
level down to individual attention heads, and discover that specific heads
govern distinct visual concepts such as structure, style, and texture quality.
Building on this insight, we propose "HeadHunter", a systematic framework for
iteratively selecting attention heads that align with user-centric objectives,
enabling fine-grained control over generation quality and visual attributes. In
addition, we introduce SoftPAG, which linearly interpolates each selected
head's attention map toward an identity matrix, providing a continuous knob to
tune perturbation strength and suppress artifacts. Our approach not only
mitigates the oversmoothing issues of existing layer-level perturbation but
also enables targeted manipulation of specific visual styles through
compositional head selection. We validate our method on modern large-scale
DiT-based text-to-image models including Stable Diffusion 3 and FLUX.1,
demonstrating superior performance in both general quality enhancement and
style-specific guidance. Our work provides the first head-level analysis of
attention perturbation in diffusion models, uncovering interpretable
specialization within attention layers and enabling practical design of
effective perturbation strategies.