Rumo às Fronteiras da Amostragem Confiável em Difusão via Orientação por Atenção Adversarial de Sinkhorn

Resumo

Os modelos de difusão demonstraram um forte desempenho generativo ao utilizar métodos de orientação, como a orientação livre de classificador (CFG), que melhoram a qualidade da saída modificando a trajetória de amostragem. Estes métodos geralmente melhoram uma saída-alvo degradando intencionalmente outra, frequentemente a saída incondicional, utilizando funções de perturbação heurísticas, como a mistura de identidade ou condições desfocadas. No entanto, estas abordagens carecem de uma base fundamentada e dependem de distorções desenhadas manualmente. Neste trabalho, propomos a Orientação por Atenção de Sinkhorn Adversarial (ASAG), um método novo que reinterpreta as pontuações de atenção nos modelos de difusão através da lente do transporte ótimo e perturba intencionalmente o custo de transporte através do algoritmo de Sinkhorn. Em vez de corromper simplisticamente o mecanismo de atenção, a ASAG injeta um custo adversarial nas camadas de auto-atenção para reduzir a similaridade pixel a pixel entre consultas e chaves. Esta degradação deliberada enfraquece os alinhamentos de atenção enganadores e resulta numa qualidade de amostra condicional e incondicional melhorada. A ASAG mostra melhorias consistentes na difusão texto-imagem e aumenta a controlabilidade e fidelidade em aplicações subsequentes, como o IP-Adapter e o ControlNet. O método é leve, *plug-and-play*, e melhora a confiabilidade sem exigir qualquer re-treino do modelo.

English

Diffusion models have demonstrated strong generative performance when using guidance methods such as classifier-free guidance (CFG), which enhance output quality by modifying the sampling trajectory. These methods typically improve a target output by intentionally degrading another, often the unconditional output, using heuristic perturbation functions such as identity mixing or blurred conditions. However, these approaches lack a principled foundation and rely on manually designed distortions. In this work, we propose Adversarial Sinkhorn Attention Guidance (ASAG), a novel method that reinterprets attention scores in diffusion models through the lens of optimal transport and intentionally disrupt the transport cost via Sinkhorn algorithm. Instead of naively corrupting the attention mechanism, ASAG injects an adversarial cost within self-attention layers to reduce pixel-wise similarity between queries and keys. This deliberate degradation weakens misleading attention alignments and leads to improved conditional and unconditional sample quality. ASAG shows consistent improvements in text-to-image diffusion, and enhances controllability and fidelity in downstream applications such as IP-Adapter and ControlNet. The method is lightweight, plug-and-play, and improves reliability without requiring any model retraining.

Rumo às Fronteiras da Amostragem Confiável em Difusão via Orientação por Atenção Adversarial de Sinkhorn

Toward the Frontiers of Reliable Diffusion Sampling via Adversarial Sinkhorn Attention Guidance

Resumo

Support