ChatPaper.aiChatPaper

PISA: La Atención Fragmentada Dispersa es Más Inteligente para Transformadores de Difusión Eficientes

PISA: Piecewise Sparse Attention Is Wiser for Efficient Diffusion Transformers

February 1, 2026
Autores: Haopeng Li, Shitong Shao, Wenliang Zhong, Zikai Zhou, Lichen Bai, Hui Xiong, Zeke Xie
cs.AI

Resumen

Los Transformadores de Difusión son fundamentales para la generación de video e imágenes, pero su eficiencia se ve limitada por la complejidad cuadrática de la atención. Si bien la atención dispersa por bloques acelera el cálculo al atender solo a los bloques clave-valor críticos, sufre degradación con alta dispersión al descartar contexto. En este trabajo, descubrimos que las puntuaciones de atención de los bloques no críticos exhiben estabilidad distribucional, lo que permite aproximarlos de manera precisa y eficiente en lugar de descartarlos, un aspecto esencial para el diseño de atención dispersa. Motivados por esta idea clave, proponemos PISA, una Atención Dispersa por Segmentos (Piecewise Sparse Attention) que no requiere entrenamiento y cubre el alcance completo de la atención con complejidad subcuadrática. A diferencia del paradigma convencional de mantener-o-descartar que elimina directamente la información de bloques no críticos, PISA introduce una novedosa estrategia de exacto-o-aproximado: mantiene el cálculo exacto para los bloques críticos mientras aproxima eficientemente el resto mediante expansión de Taylor por bloques. Este diseño permite que PISA actúe como un proxy fiel de la atención completa, cerrando efectivamente la brecha entre velocidad y calidad. Los resultados experimentales demuestran que PISA logra aceleraciones de 1.91x y 2.57x en Wan2.1-14B y Hunyuan-Video, respectivamente, manteniendo consistentemente la más alta calidad entre los métodos de atención dispersa. Notablemente, incluso para la generación de imágenes en FLUX, PISA logra una aceleración de 1.2x sin comprometer la calidad visual. El código está disponible en: https://github.com/xie-lab-ml/piecewise-sparse-attention.
English
Diffusion Transformers are fundamental for video and image generation, but their efficiency is bottlenecked by the quadratic complexity of attention. While block sparse attention accelerates computation by attending only critical key-value blocks, it suffers from degradation at high sparsity by discarding context. In this work, we discover that attention scores of non-critical blocks exhibit distributional stability, allowing them to be approximated accurately and efficiently rather than discarded, which is essentially important for sparse attention design. Motivated by this key insight, we propose PISA, a training-free Piecewise Sparse Attention that covers the full attention span with sub-quadratic complexity. Unlike the conventional keep-or-drop paradigm that directly drop the non-critical block information, PISA introduces a novel exact-or-approximate strategy: it maintains exact computation for critical blocks while efficiently approximating the remainder through block-wise Taylor expansion. This design allows PISA to serve as a faithful proxy to full attention, effectively bridging the gap between speed and quality. Experimental results demonstrate that PISA achieves 1.91 times and 2.57 times speedups on Wan2.1-14B and Hunyuan-Video, respectively, while consistently maintaining the highest quality among sparse attention methods. Notably, even for image generation on FLUX, PISA achieves a 1.2 times acceleration without compromising visual quality. Code is available at: https://github.com/xie-lab-ml/piecewise-sparse-attention.
PDF32February 7, 2026