Vers les Frontières de l'Échantillonnage Fiable par Diffusion via un Guidage par Attention Adversaire de Sinkhorn
Toward the Frontiers of Reliable Diffusion Sampling via Adversarial Sinkhorn Attention Guidance
November 10, 2025
papers.authors: Kwanyoung Kim
cs.AI
papers.abstract
Les modèles de diffusion ont démontré de fortes performances génératives grâce à des méthodes de guidage telles que le guidage sans classifieur (CFG), qui améliorent la qualité des sorties en modifiant la trajectoire d'échantillonnage. Ces méthodes améliorent généralement une sortie cible en dégradant intentionnellement une autre, souvent la sortie non conditionnelle, à l'aide de fonctions de perturbation heuristiques telles que le mélange d'identité ou les conditions floues. Cependant, ces approches manquent de fondements principés et reposent sur des distorsions conçues manuellement. Dans ce travail, nous proposons l'Adversarial Sinkhorn Attention Guidance (ASAG), une nouvelle méthode qui réinterprète les scores d'attention dans les modèles de diffusion sous l'angle du transport optimal et perturbe intentionnellement le coût de transport via l'algorithme de Sinkhorn. Au lieu de corrompre naïvement le mécanisme d'attention, l'ASAG injecte un coût adversarial dans les couches d'auto-attention pour réduire la similarité pixel à pixel entre les requêtes et les clés. Cette dégradation délibérée affaiblit les alignements d'attention trompeurs et conduit à une amélioration de la qualité des échantillons conditionnels et non conditionnels. L'ASAG montre des améliorations constantes dans la diffusion texte-image, et améliore la contrôlabilité et la fidélité dans des applications en aval telles que IP-Adapter et ControlNet. La méthode est légère, plug-and-play, et améliore la fiabilité sans nécessiter de réentraînement du modèle.
English
Diffusion models have demonstrated strong generative performance when using guidance methods such as classifier-free guidance (CFG), which enhance output quality by modifying the sampling trajectory. These methods typically improve a target output by intentionally degrading another, often the unconditional output, using heuristic perturbation functions such as identity mixing or blurred conditions. However, these approaches lack a principled foundation and rely on manually designed distortions. In this work, we propose Adversarial Sinkhorn Attention Guidance (ASAG), a novel method that reinterprets attention scores in diffusion models through the lens of optimal transport and intentionally disrupt the transport cost via Sinkhorn algorithm. Instead of naively corrupting the attention mechanism, ASAG injects an adversarial cost within self-attention layers to reduce pixel-wise similarity between queries and keys. This deliberate degradation weakens misleading attention alignments and leads to improved conditional and unconditional sample quality. ASAG shows consistent improvements in text-to-image diffusion, and enhances controllability and fidelity in downstream applications such as IP-Adapter and ControlNet. The method is lightweight, plug-and-play, and improves reliability without requiring any model retraining.