К рубежам надежного диффузионного сэмплирования с помощью адверсарного управления вниманием Зонхорна
Toward the Frontiers of Reliable Diffusion Sampling via Adversarial Sinkhorn Attention Guidance
November 10, 2025
Авторы: Kwanyoung Kim
cs.AI
Аннотация
Диффузионные модели продемонстрировали высокую генеративную производительность при использовании методов управления, таких как классификаторно-независимое руководство (CFG), которые улучшают качество выходных данных путем модификации траектории сэмплирования. Эти методы обычно улучшают целевой выход, намеренно ухудшая другой, часто безусловный выход, с использованием эвристических функций возмущения, таких как смешение идентичности или размытые условия. Однако данным подходам не хватает принципиального обоснования, и они опираются на ручные искажения. В данной работе мы предлагаем Метод управления вниманием с использованием адверсарной сходимости Зинхорна (ASAG) — новый подход, который переосмысливает оценки внимания в диффузионных моделях через призму оптимального транспорта и намеренно нарушает транспортную стоимость с помощью алгоритма Зинхорна. Вместо наивного повреждения механизма внимания ASAG внедряет адверсарную стоимость в слои самовнимания для снижения попиксельного сходства между запросами и ключами. Это преднамеренное ухудшение ослабляет вводящие в заблуждение выравнивания внимания и приводит к улучшению качества условных и безусловных сэмплов. ASAG демонстрирует устойчивые улучшения в тексто-изобразительной диффузии и повышает управляемость и достоверность в downstream-приложениях, таких как IP-Adapter и ControlNet. Метод является легковесным, работает по принципу «включи и работай» и повышает надежность без необходимости переобучения модели.
English
Diffusion models have demonstrated strong generative performance when using guidance methods such as classifier-free guidance (CFG), which enhance output quality by modifying the sampling trajectory. These methods typically improve a target output by intentionally degrading another, often the unconditional output, using heuristic perturbation functions such as identity mixing or blurred conditions. However, these approaches lack a principled foundation and rely on manually designed distortions. In this work, we propose Adversarial Sinkhorn Attention Guidance (ASAG), a novel method that reinterprets attention scores in diffusion models through the lens of optimal transport and intentionally disrupt the transport cost via Sinkhorn algorithm. Instead of naively corrupting the attention mechanism, ASAG injects an adversarial cost within self-attention layers to reduce pixel-wise similarity between queries and keys. This deliberate degradation weakens misleading attention alignments and leads to improved conditional and unconditional sample quality. ASAG shows consistent improvements in text-to-image diffusion, and enhances controllability and fidelity in downstream applications such as IP-Adapter and ControlNet. The method is lightweight, plug-and-play, and improves reliability without requiring any model retraining.