ChatPaper.aiChatPaper

信頼できる拡散サンプリングのフロンティアへ:敵対的シンクホーン注意誘導によるアプローチ

Toward the Frontiers of Reliable Diffusion Sampling via Adversarial Sinkhorn Attention Guidance

November 10, 2025
著者: Kwanyoung Kim
cs.AI

要旨

拡散モデルは、分類器不要ガイダンス(CFG)のようなガイダンス手法を用いることで、強力な生成性能を示している。これらの手法は、サンプリング軌道を変更することで出力品質を向上させる。一般的に、ターゲットとなる出力を改善するために、無条件出力など別の出力を意図的に劣化させる。これは、恒等混合やぼかし条件といったヒューリスティックな摂動関数を用いて行われる。しかし、これらのアプローチには原理的な基盤が欠けており、手動で設計された歪みに依存している。 本研究では、敵対的シンクホーン注意ガイダンス(ASAG)を提案する。これは、最適輸送の観点から拡散モデル内の注意スコアを再解釈し、シンクホーンアルゴリズムを用いて意図的に輸送コストを攪乱する新規手法である。ASAGは、注意機構を単純に破壊するのではなく、セルフアテンション層内に敵対的コストを注入し、クエリとキー間の画素単位の類似性を低減する。この意図的な劣化は、誤った注意のアラインメントを弱め、条件付き及び無条件のサンプル品質の向上につながる。ASAGは、テキストから画像への拡散において一貫した改善を示し、IP-AdapterやControlNetなどの下流アプリケーションにおける制御性と忠実度を高める。本手法は軽量でプラグアンドプレイが可能であり、モデルの再学習を必要とせずに信頼性を向上させる。
English
Diffusion models have demonstrated strong generative performance when using guidance methods such as classifier-free guidance (CFG), which enhance output quality by modifying the sampling trajectory. These methods typically improve a target output by intentionally degrading another, often the unconditional output, using heuristic perturbation functions such as identity mixing or blurred conditions. However, these approaches lack a principled foundation and rely on manually designed distortions. In this work, we propose Adversarial Sinkhorn Attention Guidance (ASAG), a novel method that reinterprets attention scores in diffusion models through the lens of optimal transport and intentionally disrupt the transport cost via Sinkhorn algorithm. Instead of naively corrupting the attention mechanism, ASAG injects an adversarial cost within self-attention layers to reduce pixel-wise similarity between queries and keys. This deliberate degradation weakens misleading attention alignments and leads to improved conditional and unconditional sample quality. ASAG shows consistent improvements in text-to-image diffusion, and enhances controllability and fidelity in downstream applications such as IP-Adapter and ControlNet. The method is lightweight, plug-and-play, and improves reliability without requiring any model retraining.
PDF52December 1, 2025