ChatPaper.aiChatPaper

Verso le Frontiere del Campionamento Affidabile nella Diffusione tramite Guida dell'Attenzione Adversariale di Sinkhorn

Toward the Frontiers of Reliable Diffusion Sampling via Adversarial Sinkhorn Attention Guidance

November 10, 2025
Autori: Kwanyoung Kim
cs.AI

Abstract

I modelli di diffusione hanno dimostrato elevate prestazioni generative quando utilizzano metodi di guida come la guida senza classificatore (CFG), che migliorano la qualità dell'output modificando la traiettoria di campionamento. Questi metodi generalmente migliorano un output target degradando intenzionalmente un altro, spesso l'output incondizionato, utilizzando funzioni di perturbazione euristiche come il mixing d'identità o condizioni sfocate. Tuttavia, questi approcci mancano di una base principiata e si basano su distorsioni progettate manualmente. In questo lavoro, proponiamo l'Adversarial Sinkhorn Attention Guidance (ASAG), un metodo innovativo che reinterpreta i punteggi di attenzione nei modelli di diffusione attraverso la lente del trasporto ottimo e interrompe intenzionalmente il costo del trasporto tramite l'algoritmo di Sinkhorn. Invece di corrompere ingenuamente il meccanismo di attenzione, l'ASAG inietta un costo avversario all'interno degli strati di self-attention per ridurre la similarità pixel-wise tra query e chiavi. Questa degradazione deliberata indebolisce gli allineamenti attentivi fuorvianti e porta a un miglioramento della qualità del campione condizionato e incondizionato. L'ASAG mostra miglioramenti consistenti nella diffusione text-to-image e potenzia la controllabilità e la fedeltà in applicazioni downstream come IP-Adapter e ControlNet. Il metodo è leggero, plug-and-play e migliora l'affidabilità senza richiedere alcuna riaddestramento del modello.
English
Diffusion models have demonstrated strong generative performance when using guidance methods such as classifier-free guidance (CFG), which enhance output quality by modifying the sampling trajectory. These methods typically improve a target output by intentionally degrading another, often the unconditional output, using heuristic perturbation functions such as identity mixing or blurred conditions. However, these approaches lack a principled foundation and rely on manually designed distortions. In this work, we propose Adversarial Sinkhorn Attention Guidance (ASAG), a novel method that reinterprets attention scores in diffusion models through the lens of optimal transport and intentionally disrupt the transport cost via Sinkhorn algorithm. Instead of naively corrupting the attention mechanism, ASAG injects an adversarial cost within self-attention layers to reduce pixel-wise similarity between queries and keys. This deliberate degradation weakens misleading attention alignments and leads to improved conditional and unconditional sample quality. ASAG shows consistent improvements in text-to-image diffusion, and enhances controllability and fidelity in downstream applications such as IP-Adapter and ControlNet. The method is lightweight, plug-and-play, and improves reliability without requiring any model retraining.
PDF52December 1, 2025