Auf dem Weg zu den Grenzen zuverlässiger Diffusionsabtastung durch adversarielle Sinkhorn-Aufmerksamkeitssteuerung
Toward the Frontiers of Reliable Diffusion Sampling via Adversarial Sinkhorn Attention Guidance
November 10, 2025
papers.authors: Kwanyoung Kim
cs.AI
papers.abstract
Diffusionsmodelle haben eine starke generative Leistung unter Verwendung von Guidance-Methoden wie dem Classifier-Free Guidance (CFG) gezeigt, welche die Ausgabequalität durch Modifikation der Sampling-Trajektorie verbessern. Diese Methoden steigern typischerweise eine Zielausgabe, indem sie eine andere, oft die unbedingte Ausgabe, durch heuristische Perturbationsfunktionen wie Identity-Mixing oder verschwommene Bedingungen absichtlich verschlechtern. Allerdings fehlt diesen Ansätzen eine prinzipielle Grundlage, und sie stützen sich auf manuell gestaltete Verzerrungen. In dieser Arbeit schlagen wir Adversarial Sinkhorn Attention Guidance (ASAG) vor, eine neuartige Methode, die Aufmerksamkeitswerte in Diffusionsmodellen durch die Brille des optimalen Transports neu interpretiert und die Transportkosten gezielt über den Sinkhorn-Algorithmus stört. Anstatt den Aufmerksamkeitsmechanismus naiv zu korrumpieren, injiziert ASAG eine adversarielle Kostenfunktion in Self-Attention-Schichten, um die pixelweise Ähnlichkeit zwischen Queries und Keys zu reduzieren. Diese gezielte Verschlechterung schwächt irreführende Aufmerksamkeitsausrichtungen und führt zu einer verbesserten bedingten und unbedingten Stichprobenqualität. ASAG zeigt konsistente Verbesserungen in der Text-zu-Bild-Diffusion und erhöht die Steuerbarkeit und Treue in Downstream-Anwendungen wie IP-Adapter und ControlNet. Die Methode ist leichtgewichtig, plug-and-play-fähig und verbessert die Zuverlässigkeit, ohne ein erneutes Modelltraining zu erfordern.
English
Diffusion models have demonstrated strong generative performance when using guidance methods such as classifier-free guidance (CFG), which enhance output quality by modifying the sampling trajectory. These methods typically improve a target output by intentionally degrading another, often the unconditional output, using heuristic perturbation functions such as identity mixing or blurred conditions. However, these approaches lack a principled foundation and rely on manually designed distortions. In this work, we propose Adversarial Sinkhorn Attention Guidance (ASAG), a novel method that reinterprets attention scores in diffusion models through the lens of optimal transport and intentionally disrupt the transport cost via Sinkhorn algorithm. Instead of naively corrupting the attention mechanism, ASAG injects an adversarial cost within self-attention layers to reduce pixel-wise similarity between queries and keys. This deliberate degradation weakens misleading attention alignments and leads to improved conditional and unconditional sample quality. ASAG shows consistent improvements in text-to-image diffusion, and enhances controllability and fidelity in downstream applications such as IP-Adapter and ControlNet. The method is lightweight, plug-and-play, and improves reliability without requiring any model retraining.