PISA: l'Attenzione Sparsa a Tratti è Più Saggia per Trasformatori Diffusivi Efficienti

Abstract

I Diffusion Transformer sono fondamentali per la generazione di video e immagini, ma la loro efficienza è limitata dalla complessità quadratica dell'attenzione. Sebbene l'attenzione sparsa a blocchi acceleri il calcolo processando solo i blocchi chiave-valore critici, essa soffre di degrado ad alta sparsità a causa dello scarto del contesto. In questo lavoro, scopriamo che i punteggi di attenzione dei blocchi non critici mostrano una stabilità distribuzionale, permettendo di approssimarli in modo accurato ed efficiente anziché scartarli, aspetto essenziale per la progettazione di attenzione sparsa. Motivati da questa intuizione chiave, proponiamo PISA, una Piecewise Sparse Attention che non richiede training e copre l'intero span di attenzione con complessità sub-quadratica. A differenza del paradigma convenzinale mantieni-o-scarta che elimina direttamente le informazioni dei blocchi non critici, PISA introduce una nuova strategia esatto-o-approssima: mantiene il calcolo esatto per i blocchi critici mentre approssima efficientemente il resto tramite espansione di Taylor a blocchi. Questo design permette a PISA di fungere da fedele proxy per l'attenzione completa, colmando efficacemente il divario tra velocità e qualità. I risultati sperimentali dimostrano che PISA raggiunge accelerazioni rispettivamente di 1.91 e 2.57 volte su Wan2.1-14B e Hunyuan-Video, mantenendo costantemente la qualità più alta tra i metodi di attenzione sparsa. Notevolmente, anche per la generazione di immagini su FLUX, PISA raggiunge un'accelerazione di 1.2 volte senza compromettere la qualità visiva. Il codice è disponibile su: https://github.com/xie-lab-ml/piecewise-sparse-attention.

English

Diffusion Transformers are fundamental for video and image generation, but their efficiency is bottlenecked by the quadratic complexity of attention. While block sparse attention accelerates computation by attending only critical key-value blocks, it suffers from degradation at high sparsity by discarding context. In this work, we discover that attention scores of non-critical blocks exhibit distributional stability, allowing them to be approximated accurately and efficiently rather than discarded, which is essentially important for sparse attention design. Motivated by this key insight, we propose PISA, a training-free Piecewise Sparse Attention that covers the full attention span with sub-quadratic complexity. Unlike the conventional keep-or-drop paradigm that directly drop the non-critical block information, PISA introduces a novel exact-or-approximate strategy: it maintains exact computation for critical blocks while efficiently approximating the remainder through block-wise Taylor expansion. This design allows PISA to serve as a faithful proxy to full attention, effectively bridging the gap between speed and quality. Experimental results demonstrate that PISA achieves 1.91 times and 2.57 times speedups on Wan2.1-14B and Hunyuan-Video, respectively, while consistently maintaining the highest quality among sparse attention methods. Notably, even for image generation on FLUX, PISA achieves a 1.2 times acceleration without compromising visual quality. Code is available at: https://github.com/xie-lab-ml/piecewise-sparse-attention.

PISA: l'Attenzione Sparsa a Tratti è Più Saggia per Trasformatori Diffusivi Efficienti

PISA: Piecewise Sparse Attention Is Wiser for Efficient Diffusion Transformers

Abstract

Support