PISA: Stückweise spärliche Aufmerksamkeit ist effizienter für Diffusions-Transformer
PISA: Piecewise Sparse Attention Is Wiser for Efficient Diffusion Transformers
February 1, 2026
papers.authors: Haopeng Li, Shitong Shao, Wenliang Zhong, Zikai Zhou, Lichen Bai, Hui Xiong, Zeke Xie
cs.AI
papers.abstract
Diffusion Transformer sind grundlegend für die Video- und Bildgenerierung, doch ihre Effizienz wird durch die quadratische Komplexität der Attention-Funktion begrenzt. Während block-sparse Attention die Berechnung beschleunigt, indem nur kritische Key-Value-Blöcke berücksichtigt werden, leidet sie bei hoher Sparsity unter Qualitätseinbußen durch den Verlust von Kontextinformationen. In dieser Arbeit zeigen wir, dass die Attention-Scores nicht-kritischer Blöcke eine verteilungsmäßige Stabilität aufweisen, was es erlaubt, sie präzise und effizient zu approximieren, anstatt sie zu verwerfen – eine essentielle Erkenntnis für das Design sparser Attention. Aufbauend auf dieser Schlüsselbeobachtung schlagen wir PISA vor, eine trainierungsfreie Piecewise Sparse Attention, die die volle Attention-Spanne mit subquadratischer Komplexität abdeckt. Im Gegensatz zum konventionellen Keep-or-Drop-Paradigma, das nicht-kritische Blockinformationen verwirft, führt PISA eine neuartige Exact-or-Approximate-Strategie ein: Kritische Blöcke werden exakt berechnet, während der Rest effizient durch blockweise Taylor-Approximation angenähert wird. Dieser Ansatz ermöglicht es PISA, als treue Stellvertreterin der vollständigen Attention zu fungieren und so die Lücke zwischen Geschwindigkeit und Qualität zu schließen. Experimentelle Ergebnisse zeigen, dass PISA auf Wan2.1-14B und Hunyuan-Video Beschleunigungen um den Faktor 1,91 bzw. 2,57 erzielt und dabei durchgängig die höchste Qualität unter sparse-Attention-Methoden beibehält. Bemerkenswerterweise erreicht PISA selbst bei der Bildgenerierung mit FLUX eine 1,2-fache Beschleunigung ohne Einbußen bei der visuellen Qualität. Der Code ist verfügbar unter: https://github.com/xie-lab-ml/piecewise-sparse-attention.
English
Diffusion Transformers are fundamental for video and image generation, but their efficiency is bottlenecked by the quadratic complexity of attention. While block sparse attention accelerates computation by attending only critical key-value blocks, it suffers from degradation at high sparsity by discarding context. In this work, we discover that attention scores of non-critical blocks exhibit distributional stability, allowing them to be approximated accurately and efficiently rather than discarded, which is essentially important for sparse attention design. Motivated by this key insight, we propose PISA, a training-free Piecewise Sparse Attention that covers the full attention span with sub-quadratic complexity. Unlike the conventional keep-or-drop paradigm that directly drop the non-critical block information, PISA introduces a novel exact-or-approximate strategy: it maintains exact computation for critical blocks while efficiently approximating the remainder through block-wise Taylor expansion. This design allows PISA to serve as a faithful proxy to full attention, effectively bridging the gap between speed and quality. Experimental results demonstrate that PISA achieves 1.91 times and 2.57 times speedups on Wan2.1-14B and Hunyuan-Video, respectively, while consistently maintaining the highest quality among sparse attention methods. Notably, even for image generation on FLUX, PISA achieves a 1.2 times acceleration without compromising visual quality. Code is available at: https://github.com/xie-lab-ml/piecewise-sparse-attention.