Hacia las Fronteras del Muestreo Confiable en Difusión mediante Guía de Atención Adversaria de Sinkhorn
Toward the Frontiers of Reliable Diffusion Sampling via Adversarial Sinkhorn Attention Guidance
November 10, 2025
Autores: Kwanyoung Kim
cs.AI
Resumen
Los modelos de difusión han demostrado un fuerte rendimiento generativo al utilizar métodos de guiado como el guiado libre de clasificador (CFG), que mejoran la calidad de la salida modificando la trayectoria de muestreo. Estos métodos suelen mejorar una salida objetivo degradando intencionadamente otra, frecuentemente la salida incondicional, mediante funciones de perturbación heurísticas como la mezcla de identidad o condiciones difuminadas. Sin embargo, estos enfoques carecen de una base fundamentada y dependen de distorsiones diseñadas manualmente. En este trabajo, proponemos la Guía de Atención Adversarial de Sinkhorn (ASAG), un método novedoso que reinterpreta las puntuaciones de atención en los modelos de difusión mediante la lente del transporte óptimo y altera intencionadamente el coste de transporte mediante el algoritmo de Sinkhorn. En lugar de corromper trivialmente el mecanismo de atención, ASAG inyecta un coste adversarial dentro de las capas de auto-atención para reducir la similitud a nivel de píxel entre consultas y claves. Esta degradación deliberada debilita las alineaciones de atención engañosas y conduce a una mejora en la calidad de las muestras condicionales e incondicionales. ASAG muestra mejoras consistentes en la difusión texto-imagen, y aumenta la controlabilidad y fidelidad en aplicaciones posteriores como IP-Adapter y ControlNet. El método es ligero, plug-and-play, y mejora la fiabilidad sin requerir ningún reentrenamiento del modelo.
English
Diffusion models have demonstrated strong generative performance when using guidance methods such as classifier-free guidance (CFG), which enhance output quality by modifying the sampling trajectory. These methods typically improve a target output by intentionally degrading another, often the unconditional output, using heuristic perturbation functions such as identity mixing or blurred conditions. However, these approaches lack a principled foundation and rely on manually designed distortions. In this work, we propose Adversarial Sinkhorn Attention Guidance (ASAG), a novel method that reinterprets attention scores in diffusion models through the lens of optimal transport and intentionally disrupt the transport cost via Sinkhorn algorithm. Instead of naively corrupting the attention mechanism, ASAG injects an adversarial cost within self-attention layers to reduce pixel-wise similarity between queries and keys. This deliberate degradation weakens misleading attention alignments and leads to improved conditional and unconditional sample quality. ASAG shows consistent improvements in text-to-image diffusion, and enhances controllability and fidelity in downstream applications such as IP-Adapter and ControlNet. The method is lightweight, plug-and-play, and improves reliability without requiring any model retraining.