신뢰할 수 있는 확산 샘플링의 최전선으로: 적대적 싱크혼 주의 가이던스를 통한 접근
Toward the Frontiers of Reliable Diffusion Sampling via Adversarial Sinkhorn Attention Guidance
November 10, 2025
저자: Kwanyoung Kim
cs.AI
초록
확산 모델은 샘플링 궤적을 수정하여 출력 품질을 향상시키는 classifier-free guidance(CFG)와 같은 안내 방법을 사용할 때 강력한 생성 성능을 입증해왔습니다. 이러한 방법들은 일반적으로 정체성 혼합이나 흐림 조건과 같은 경험적 교란 함수를 사용하여 무조건 출력과 같은 다른 출력을 의도적으로 저하시킴으로써 목표 출력을 개선합니다. 그러나 이러한 접근법은 원칙적인 토대가 부족하며 수동으로 설계된 왜곡에 의존합니다. 본 연구에서는 최적 수송 이론의 관점에서 확산 모델의 어텐션 점수를 재해석하고 Sinkhorn 알고리즘을 통해 수송 비용을 의도적으로 방해하는 새로운 방법인 Adversarial Sinkhorn Attention Guidance(ASAG)를 제안합니다. ASAG는 어텐션 메커니즘을 단순히 손상시키는 대신, 쿼리와 키 간의 픽셀 단위 유사도를 감소시키기 위해 자기 어텐션 계층 내에 적대적 비용을 주입합니다. 이러한 의도적인 저하는 오해를 불러일으키는 어텐션 정렬을 약화시키고 조건부 및 무조건부 샘플 품질의 개선으로 이어집니다. ASAG는 텍스트-이미지 확산에서 일관된 개선을 보여주며, IP-Adapter 및 ControlNet과 같은 하위 응용 프로그램에서 제어성과 정확도를 향상시킵니다. 이 방법은 경량이며 플러그 앤 플레이 방식으로, 모델 재훈련 없이도 신뢰성을 향상시킵니다.
English
Diffusion models have demonstrated strong generative performance when using guidance methods such as classifier-free guidance (CFG), which enhance output quality by modifying the sampling trajectory. These methods typically improve a target output by intentionally degrading another, often the unconditional output, using heuristic perturbation functions such as identity mixing or blurred conditions. However, these approaches lack a principled foundation and rely on manually designed distortions. In this work, we propose Adversarial Sinkhorn Attention Guidance (ASAG), a novel method that reinterprets attention scores in diffusion models through the lens of optimal transport and intentionally disrupt the transport cost via Sinkhorn algorithm. Instead of naively corrupting the attention mechanism, ASAG injects an adversarial cost within self-attention layers to reduce pixel-wise similarity between queries and keys. This deliberate degradation weakens misleading attention alignments and leads to improved conditional and unconditional sample quality. ASAG shows consistent improvements in text-to-image diffusion, and enhances controllability and fidelity in downstream applications such as IP-Adapter and ControlNet. The method is lightweight, plug-and-play, and improves reliability without requiring any model retraining.