ChatPaper.aiChatPaper

Prisma: Spektral-bewusste block-sparse Aufmerksamkeit

Prism: Spectral-Aware Block-Sparse Attention

February 9, 2026
papers.authors: Xinghao Wang, Pengyu Wang, Xiaoran Liu, Fangxu Liu, Jason Chu, Kai Song, Xipeng Qiu
cs.AI

papers.abstract

Block-Sparse-Attention ist vielversprechend für die Beschleunigung der Pre-Filling-Phase von LLMs mit langem Kontext, doch die effiziente Identifizierung relevanter Blöcke bleibt ein Engpass. Bestehende Methoden verwenden typischerweise grobkörnige Attention als Näherung für die Blockbedeutungsschätzung, greifen aber oft auf aufwändige Token-basierte Suche oder Bewertung zurück, was zu erheblichem Auswahlaufwand führt. In dieser Arbeit führen wir die Ungenauigkeit der standardmäßigen grobkörnigen Attention mittels Mean-Pooling auf eine theoretische Ursache zurück: die Wechselwirkung zwischen Mean-Pooling und Rotary Positional Embeddings (RoPE). Wir beweisen, dass Mean-Pooling als Tiefpassfilter wirkt, der destruktive Interferenz in hochfrequenten Dimensionen verursacht und effektiv einen "blinden Fleck" für lokale Positionsinformationen (z.B. Slash-Muster) erzeugt. Um dies zu beheben, stellen wir Prism vor, einen trainierungsfreien, spektralbewussten Ansatz, der die Blockauswahl in Hochfrequenz- und Niederfrequenz-Zweige zerlegt. Durch energiebasierte Temperaturkalibrierung stellt Prism die abgeschwächten Positionssignale direkt aus den gepoolten Repräsentationen wieder her und ermöglicht so eine Blockbedeutungsschätzung mit rein blockbasierten Operationen, was die Effizienz steigert. Umfangreiche Auswertungen bestätigen, dass Prism die Genauigkeit der Voll-Attention erreicht und dabei eine bis zu 5,1-fache Beschleunigung liefert.
English
Block-sparse attention is promising for accelerating long-context LLM pre-filling, yet identifying relevant blocks efficiently remains a bottleneck. Existing methods typically employ coarse-grained attention as a proxy for block importance estimation, but often resort to expensive token-level searching or scoring, resulting in significant selection overhead. In this work, we trace the inaccuracy of standard coarse-grained attention via mean pooling to a theoretical root cause: the interaction between mean pooling and Rotary Positional Embeddings (RoPE). We prove that mean pooling acts as a low-pass filter that induces destructive interference in high-frequency dimensions, effectively creating a "blind spot" for local positional information (e.g., slash patterns). To address this, we introduce Prism, a training-free spectral-aware approach that decomposes block selection into high-frequency and low-frequency branches. By applying energy-based temperature calibration, Prism restores the attenuated positional signals directly from pooled representations, enabling block importance estimation using purely block-level operations, thereby improving efficiency. Extensive evaluations confirm that Prism maintains accuracy parity with full attention while delivering up to 5.1times speedup.
PDF312February 12, 2026