ChatPaper.aiChatPaper

Orientación de Perturbación de Grano Fino mediante Selección de Cabezas de Atención

Fine-Grained Perturbation Guidance via Attention Head Selection

June 12, 2025
Autores: Donghoon Ahn, Jiwon Kang, Sanghyun Lee, Minjae Kim, Jaewon Min, Wooseok Jang, Saungwu Lee, Sayak Paul, Susung Hong, Seungryong Kim
cs.AI

Resumen

Los métodos recientes de guía en modelos de difusión dirigen el muestreo inverso perturbando el modelo para construir un modelo débil implícito y guiar la generación lejos de él. Entre estos enfoques, la perturbación de atención ha demostrado un fuerte rendimiento empírico en escenarios incondicionales donde la guía libre de clasificadores no es aplicable. Sin embargo, los métodos existentes de perturbación de atención carecen de enfoques fundamentados para determinar dónde deberían aplicarse las perturbaciones, particularmente en arquitecturas de Transformadores de Difusión (DiT), donde los cálculos relevantes para la calidad están distribuidos en múltiples capas. En este artículo, investigamos la granularidad de las perturbaciones de atención, desde el nivel de capa hasta cabezas de atención individuales, y descubrimos que cabezas específicas gobiernan conceptos visuales distintos, como estructura, estilo y calidad de textura. Basándonos en esta idea, proponemos "HeadHunter", un marco sistemático para seleccionar iterativamente cabezas de atención que se alinean con objetivos centrados en el usuario, permitiendo un control fino sobre la calidad de generación y los atributos visuales. Además, introducimos SoftPAG, que interpola linealmente el mapa de atención de cada cabeza seleccionada hacia una matriz identidad, proporcionando un control continuo para ajustar la fuerza de la perturbación y suprimir artefactos. Nuestro enfoque no solo mitiga los problemas de suavizado excesivo de las perturbaciones a nivel de capa existentes, sino que también permite la manipulación dirigida de estilos visuales específicos mediante la selección composicional de cabezas. Validamos nuestro método en modelos modernos de texto a imagen basados en DiT a gran escala, incluyendo Stable Diffusion 3 y FLUX.1, demostrando un rendimiento superior tanto en la mejora general de la calidad como en la guía específica de estilos. Nuestro trabajo proporciona el primer análisis a nivel de cabezas de la perturbación de atención en modelos de difusión, revelando una especialización interpretable dentro de las capas de atención y permitiendo el diseño práctico de estrategias de perturbación efectivas.
English
Recent guidance methods in diffusion models steer reverse sampling by perturbing the model to construct an implicit weak model and guide generation away from it. Among these approaches, attention perturbation has demonstrated strong empirical performance in unconditional scenarios where classifier-free guidance is not applicable. However, existing attention perturbation methods lack principled approaches for determining where perturbations should be applied, particularly in Diffusion Transformer (DiT) architectures where quality-relevant computations are distributed across layers. In this paper, we investigate the granularity of attention perturbations, ranging from the layer level down to individual attention heads, and discover that specific heads govern distinct visual concepts such as structure, style, and texture quality. Building on this insight, we propose "HeadHunter", a systematic framework for iteratively selecting attention heads that align with user-centric objectives, enabling fine-grained control over generation quality and visual attributes. In addition, we introduce SoftPAG, which linearly interpolates each selected head's attention map toward an identity matrix, providing a continuous knob to tune perturbation strength and suppress artifacts. Our approach not only mitigates the oversmoothing issues of existing layer-level perturbation but also enables targeted manipulation of specific visual styles through compositional head selection. We validate our method on modern large-scale DiT-based text-to-image models including Stable Diffusion 3 and FLUX.1, demonstrating superior performance in both general quality enhancement and style-specific guidance. Our work provides the first head-level analysis of attention perturbation in diffusion models, uncovering interpretable specialization within attention layers and enabling practical design of effective perturbation strategies.
PDF193June 13, 2025