Prisme : Attention parcimonieuse par blocs avec sensibilité spectrale
Prism: Spectral-Aware Block-Sparse Attention
February 9, 2026
papers.authors: Xinghao Wang, Pengyu Wang, Xiaoran Liu, Fangxu Liu, Jason Chu, Kai Song, Xipeng Qiu
cs.AI
papers.abstract
L'attention parcimonieuse par blocs est prometteuse pour accélérer le pré-remplissage des LLM à contexte long, mais l'identification efficace des blocs pertinents reste un goulot d'étranglement. Les méthodes existantes utilisent généralement une attention à granularité grossière comme approximation pour l'estimation de l'importance des blocs, mais ont souvent recours à une recherche ou un scoring coûteux au niveau des tokens, entraînant une surcharge de sélection significative. Dans ce travail, nous retraçons l'inexactitude de l'attention standard à granularité grossière via le pooling moyen à une cause théorique fondamentale : l'interaction entre le pooling moyen et les embeddings positionnels rotatifs (RoPE). Nous prouvons que le pooling moyen agit comme un filtre passe-bas qui induit des interférences destructrices dans les dimensions haute fréquence, créant effectivement un "angle mort" pour l'information positionnelle locale (par exemple, les motifs de barre oblique). Pour résoudre ce problème, nous présentons Prism, une approche spectrale et sans apprentissage qui décompose la sélection de blocs en branches haute et basse fréquence. En appliquant un calibrage de température basé sur l'énergie, Prism restaure les signaux positionnels atténués directement à partir des représentations poolées, permettant une estimation de l'importance des blocs en utilisant uniquement des opérations au niveau des blocs, améliorant ainsi l'efficacité. Des évaluations approfondies confirment que Prism maintient une précision équivalente à l'attention complète tout en offrant une accélération allant jusqu'à 5,1 fois.
English
Block-sparse attention is promising for accelerating long-context LLM pre-filling, yet identifying relevant blocks efficiently remains a bottleneck. Existing methods typically employ coarse-grained attention as a proxy for block importance estimation, but often resort to expensive token-level searching or scoring, resulting in significant selection overhead. In this work, we trace the inaccuracy of standard coarse-grained attention via mean pooling to a theoretical root cause: the interaction between mean pooling and Rotary Positional Embeddings (RoPE). We prove that mean pooling acts as a low-pass filter that induces destructive interference in high-frequency dimensions, effectively creating a "blind spot" for local positional information (e.g., slash patterns). To address this, we introduce Prism, a training-free spectral-aware approach that decomposes block selection into high-frequency and low-frequency branches. By applying energy-based temperature calibration, Prism restores the attenuated positional signals directly from pooled representations, enabling block importance estimation using purely block-level operations, thereby improving efficiency. Extensive evaluations confirm that Prism maintains accuracy parity with full attention while delivering up to 5.1times speedup.