Тонкое управление возмущениями через выбор голов внимания
Fine-Grained Perturbation Guidance via Attention Head Selection
June 12, 2025
Авторы: Donghoon Ahn, Jiwon Kang, Sanghyun Lee, Minjae Kim, Jaewon Min, Wooseok Jang, Saungwu Lee, Sayak Paul, Susung Hong, Seungryong Kim
cs.AI
Аннотация
Современные методы управления в диффузионных моделях направляют обратную выборку путем внесения возмущений в модель для построения неявной слабой модели и отклонения генерации от нее. Среди этих подходов возмущение внимания продемонстрировало высокую эмпирическую производительность в безусловных сценариях, где метод классификатор-фри гида неприменим. Однако существующие методы возмущения внимания не имеют принципиальных подходов для определения мест, где следует применять возмущения, особенно в архитектурах Diffusion Transformer (DiT), где вычисления, влияющие на качество, распределены по слоям. В данной работе мы исследуем гранулярность возмущений внимания, начиная с уровня слоев и заканчивая отдельными головами внимания, и обнаруживаем, что определенные головы управляют различными визуальными концепциями, такими как структура, стиль и качество текстуры. На основе этого понимания мы предлагаем "HeadHunter", систематическую структуру для итеративного выбора голов внимания, соответствующих пользовательским целям, что позволяет осуществлять детализированный контроль над качеством генерации и визуальными атрибутами. Кроме того, мы представляем SoftPAG, который линейно интерполирует карту внимания каждой выбранной головы к единичной матрице, предоставляя непрерывный регулятор для настройки силы возмущения и подавления артефактов. Наш подход не только смягчает проблемы избыточного сглаживания существующих методов возмущения на уровне слоев, но и позволяет целенаправленно манипулировать конкретными визуальными стилями через композиционный выбор голов. Мы проверяем наш метод на современных крупномасштабных DiT-моделях для генерации изображений из текста, включая Stable Diffusion 3 и FLUX.1, демонстрируя превосходную производительность как в общем улучшении качества, так и в стиле-специфическом гиде. Наша работа представляет первый анализ возмущения внимания на уровне голов в диффузионных моделях, раскрывая интерпретируемую специализацию внутри слоев внимания и обеспечивая практическое проектирование эффективных стратегий возмущения.
English
Recent guidance methods in diffusion models steer reverse sampling by
perturbing the model to construct an implicit weak model and guide generation
away from it. Among these approaches, attention perturbation has demonstrated
strong empirical performance in unconditional scenarios where classifier-free
guidance is not applicable. However, existing attention perturbation methods
lack principled approaches for determining where perturbations should be
applied, particularly in Diffusion Transformer (DiT) architectures where
quality-relevant computations are distributed across layers. In this paper, we
investigate the granularity of attention perturbations, ranging from the layer
level down to individual attention heads, and discover that specific heads
govern distinct visual concepts such as structure, style, and texture quality.
Building on this insight, we propose "HeadHunter", a systematic framework for
iteratively selecting attention heads that align with user-centric objectives,
enabling fine-grained control over generation quality and visual attributes. In
addition, we introduce SoftPAG, which linearly interpolates each selected
head's attention map toward an identity matrix, providing a continuous knob to
tune perturbation strength and suppress artifacts. Our approach not only
mitigates the oversmoothing issues of existing layer-level perturbation but
also enables targeted manipulation of specific visual styles through
compositional head selection. We validate our method on modern large-scale
DiT-based text-to-image models including Stable Diffusion 3 and FLUX.1,
demonstrating superior performance in both general quality enhancement and
style-specific guidance. Our work provides the first head-level analysis of
attention perturbation in diffusion models, uncovering interpretable
specialization within attention layers and enabling practical design of
effective perturbation strategies.