ChatPaper.aiChatPaper

Fein abgestufte Störungssteuerung durch Auswahl von Aufmerksamkeitsköpfen

Fine-Grained Perturbation Guidance via Attention Head Selection

June 12, 2025
Autoren: Donghoon Ahn, Jiwon Kang, Sanghyun Lee, Minjae Kim, Jaewon Min, Wooseok Jang, Saungwu Lee, Sayak Paul, Susung Hong, Seungryong Kim
cs.AI

Zusammenfassung

Aktuelle Steuerungsmethoden in Diffusionsmodellen lenken das umgekehrte Sampling, indem sie das Modell stören, um ein implizites schwaches Modell zu konstruieren und die Generierung davon wegzuführen. Unter diesen Ansätzen hat die Aufmerksamkeitsstörung in unkonditionierten Szenarien, in denen eine klassifikatorfreie Steuerung nicht anwendbar ist, starke empirische Leistung gezeigt. Allerdings fehlt es bestehenden Methoden zur Aufmerksamkeitsstörung an prinzipiellen Ansätzen zur Bestimmung, wo Störungen angewendet werden sollten, insbesondere in Diffusion Transformer (DiT)-Architekturen, bei denen qualitätsrelevante Berechnungen über Schichten verteilt sind. In diesem Artikel untersuchen wir die Granularität von Aufmerksamkeitsstörungen, von der Schichtebene bis hin zu einzelnen Aufmerksamkeitsköpfen, und entdecken, dass bestimmte Köpfe unterschiedliche visuelle Konzepte wie Struktur, Stil und Texturqualität steuern. Aufbauend auf dieser Erkenntnis schlagen wir "HeadHunter" vor, ein systematisches Framework zur iterativen Auswahl von Aufmerksamkeitsköpfen, die mit benutzerzentrierten Zielen übereinstimmen und eine fein abgestimmte Kontrolle über die Generierungsqualität und visuelle Attribute ermöglichen. Zusätzlich führen wir SoftPAG ein, das die Aufmerksamkeitskarte jedes ausgewählten Kopfes linear in Richtung einer Identitätsmatrix interpoliert und somit einen kontinuierlichen Regler zur Einstellung der Störstärke und Unterdrückung von Artefakten bietet. Unser Ansatz mildert nicht nur die Überglättungsprobleme bestehender Schichtebenenstörungen, sondern ermöglicht auch die gezielte Manipulation spezifischer visueller Stile durch kompositionelle Kopfauswahl. Wir validieren unsere Methode an modernen großskaligen DiT-basierten Text-zu-Bild-Modellen, einschließlich Stable Diffusion 3 und FLUX.1, und demonstrieren überlegene Leistung sowohl bei der allgemeinen Qualitätsverbesserung als auch bei der stilspezifischen Steuerung. Unsere Arbeit bietet die erste Kopfebenenanalyse von Aufmerksamkeitsstörungen in Diffusionsmodellen, deckt interpretierbare Spezialisierungen innerhalb von Aufmerksamkeitsschichten auf und ermöglicht die praktische Gestaltung effektiver Störstrategien.
English
Recent guidance methods in diffusion models steer reverse sampling by perturbing the model to construct an implicit weak model and guide generation away from it. Among these approaches, attention perturbation has demonstrated strong empirical performance in unconditional scenarios where classifier-free guidance is not applicable. However, existing attention perturbation methods lack principled approaches for determining where perturbations should be applied, particularly in Diffusion Transformer (DiT) architectures where quality-relevant computations are distributed across layers. In this paper, we investigate the granularity of attention perturbations, ranging from the layer level down to individual attention heads, and discover that specific heads govern distinct visual concepts such as structure, style, and texture quality. Building on this insight, we propose "HeadHunter", a systematic framework for iteratively selecting attention heads that align with user-centric objectives, enabling fine-grained control over generation quality and visual attributes. In addition, we introduce SoftPAG, which linearly interpolates each selected head's attention map toward an identity matrix, providing a continuous knob to tune perturbation strength and suppress artifacts. Our approach not only mitigates the oversmoothing issues of existing layer-level perturbation but also enables targeted manipulation of specific visual styles through compositional head selection. We validate our method on modern large-scale DiT-based text-to-image models including Stable Diffusion 3 and FLUX.1, demonstrating superior performance in both general quality enhancement and style-specific guidance. Our work provides the first head-level analysis of attention perturbation in diffusion models, uncovering interpretable specialization within attention layers and enabling practical design of effective perturbation strategies.
PDF193June 13, 2025