ChatPaper.aiChatPaper

PISA : L'Attention Morcelée et Sparse est Plus Judicieuse pour des Transformers de Diffusion Efficaces

PISA: Piecewise Sparse Attention Is Wiser for Efficient Diffusion Transformers

February 1, 2026
papers.authors: Haopeng Li, Shitong Shao, Wenliang Zhong, Zikai Zhou, Lichen Bai, Hui Xiong, Zeke Xie
cs.AI

papers.abstract

Les Transformers de Diffusion sont fondamentaux pour la génération vidéo et d'images, mais leur efficacité est limitée par la complexité quadratique de l'attention. Bien que l'attention parcimonieuse par blocs accélère les calculs en ne considérant que les blocs clés-valeurs critiques, elle souffre d'une dégradation à haute sparsité en éliminant du contexte. Dans ce travail, nous découvrons que les scores d'attention des blocs non critiques présentent une stabilité distributionnelle, permettant de les approximer de manière précise et efficace plutôt que de les ignorer, ce qui est essentiel pour la conception d'attention parcimonieuse. Motivés par cette intuition clé, nous proposons PISA, une attention parcimonieuse par morceaux (Piecewise Sparse Attention) ne nécessitant pas d'entraînement supplémentaire, qui couvre l'intégralité de la portée attentionnelle avec une complexité sous-quadratique. Contrairement au paradigme classique de conservation ou suppression qui élimine directement l'information des blocs non critiques, PISA introduit une nouvelle stratégie exacte ou approchée : elle maintient un calcul exact pour les blocs critiques tout en approximant efficacement le reste via un développement de Taylor par blocs. Cette conception permet à PISA de servir de proxy fidèle à l'attention complète, comblant efficacement l'écart entre vitesse et qualité. Les résultats expérimentaux démontrent que PISA atteint des accélérations respectives de 1,91 et 2,57 fois sur Wan2.1-14B et Hunyuan-Video, tout en maintenant constamment la qualité la plus élevée parmi les méthodes d'attention parcimonieuse. Fait notable, même pour la génération d'images sur FLUX, PISA réalise une accélération de 1,2 fois sans compromettre la qualité visuelle. Le code est disponible à l'adresse : https://github.com/xie-lab-ml/piecewise-sparse-attention.
English
Diffusion Transformers are fundamental for video and image generation, but their efficiency is bottlenecked by the quadratic complexity of attention. While block sparse attention accelerates computation by attending only critical key-value blocks, it suffers from degradation at high sparsity by discarding context. In this work, we discover that attention scores of non-critical blocks exhibit distributional stability, allowing them to be approximated accurately and efficiently rather than discarded, which is essentially important for sparse attention design. Motivated by this key insight, we propose PISA, a training-free Piecewise Sparse Attention that covers the full attention span with sub-quadratic complexity. Unlike the conventional keep-or-drop paradigm that directly drop the non-critical block information, PISA introduces a novel exact-or-approximate strategy: it maintains exact computation for critical blocks while efficiently approximating the remainder through block-wise Taylor expansion. This design allows PISA to serve as a faithful proxy to full attention, effectively bridging the gap between speed and quality. Experimental results demonstrate that PISA achieves 1.91 times and 2.57 times speedups on Wan2.1-14B and Hunyuan-Video, respectively, while consistently maintaining the highest quality among sparse attention methods. Notably, even for image generation on FLUX, PISA achieves a 1.2 times acceleration without compromising visual quality. Code is available at: https://github.com/xie-lab-ml/piecewise-sparse-attention.
PDF32February 7, 2026