Naar de Grenzen van Betrouwbare Diffusiebemonstering via Adversariële Sinkhorn-Aandachtsturing
Toward the Frontiers of Reliable Diffusion Sampling via Adversarial Sinkhorn Attention Guidance
November 10, 2025
Auteurs: Kwanyoung Kim
cs.AI
Samenvatting
Diffusiemodellen hebben sterke generatieve prestaties getoond bij gebruik van begeleidingsmethoden zoals classifier-free guidance (CFG), die de uitvoerkwaliteit verbeteren door het bemonsteringspad aan te passen. Deze methoden verbeteren doorgaans een doeluitvoer door opzettelijk een andere, vaak de onvoorwaardelijke uitvoer, te verslechteren met behulp van heuristische perturbatiefuncties zoals identiteitsmenging of vervaagde condities. Deze benaderingen missen echter een principieel fundament en zijn afhankelijk van handmatig ontworpen verstoringen. In dit werk stellen we Adversarial Sinkhorn Attention Guidance (ASAG) voor, een nieuwe methode die attentiescores in diffusiemodellen herinterpreteert vanuit het perspectief van optimaal transport en opzettelijk de transportkosten verstoort via het Sinkhorn-algoritme. In plaats van het aandachtmechanisme op een naïeve manier te corrumperen, injecteert ASAG een adversariële kost in self-attention-lagen om de pixelgewijze gelijkenis tussen queries en keys te verminderen. Deze opzettelijke degradatie verzwakt misleidende aandachtssamenkomsten en leidt tot verbeterde voorwaardelijke en onvoorwaardelijke samplekwaliteit. ASAG toont consistente verbeteringen in tekst-naar-beeld diffusie en verhoogt de bestuurbaarheid en trouw in downstreamtoepassingen zoals IP-Adapter en ControlNet. De methode is lichtgewicht, plug-and-play, en verbetert de betrouwbaarheid zonder enige modelhertraining te vereisen.
English
Diffusion models have demonstrated strong generative performance when using guidance methods such as classifier-free guidance (CFG), which enhance output quality by modifying the sampling trajectory. These methods typically improve a target output by intentionally degrading another, often the unconditional output, using heuristic perturbation functions such as identity mixing or blurred conditions. However, these approaches lack a principled foundation and rely on manually designed distortions. In this work, we propose Adversarial Sinkhorn Attention Guidance (ASAG), a novel method that reinterprets attention scores in diffusion models through the lens of optimal transport and intentionally disrupt the transport cost via Sinkhorn algorithm. Instead of naively corrupting the attention mechanism, ASAG injects an adversarial cost within self-attention layers to reduce pixel-wise similarity between queries and keys. This deliberate degradation weakens misleading attention alignments and leads to improved conditional and unconditional sample quality. ASAG shows consistent improvements in text-to-image diffusion, and enhances controllability and fidelity in downstream applications such as IP-Adapter and ControlNet. The method is lightweight, plug-and-play, and improves reliability without requiring any model retraining.