Prisma: Attenzione Sparsa a Blocchi con Consapevolezza Spettrale

Abstract

L'attenzione block-sparse è promettente per accelerare la pre-filling di LLM a contesto lungo, ma l'identificazione efficiente dei blocchi rilevanti rimane un collo di bottiglia. I metodi esistenti tipicamente impiegano un'attenzione a grana grossa come proxy per la stima dell'importanza dei blocchi, ma spesso ricorrono a ricerche o scoring a livello di token costosi, risultando in un sovraccarico significativo per la selezione. In questo lavoro, ricondurremo l'imprecisione dell'attenzione standard a grana grossa tramite mean pooling a una causa teorica fondamentale: l'interazione tra il mean pooling e gli Embedding Posizionali Rotazionali (RoPE). Dimostriamo che il mean pooling agisce come un filtro passa-basso che induce interferenza distruttiva nelle dimensioni ad alta frequenza, creando effettivamente un "punto cieco" per le informazioni posizionali locali (ad esempio, pattern slash). Per affrontare questo problema, introduciamo Prism, un approccio spettrale, consapevole delle frequenze, che non richiede addestramento e scompone la selezione dei blocchi in rami ad alta e bassa frequenza. Applicando una calibrazione della temperatura basata sull'energia, Prism ripristina i segnali posizionali attenuati direttamente dalle rappresentazioni aggregate, consentendo la stima dell'importanza dei blocchi utilizzando esclusivamente operazioni a livello di blocco, migliorando così l'efficienza. Valutazioni estensive confermano che Prism mantiene una precisione equivalente all'attenzione completa, garantendo al contempo un speedup fino a 5,1 volte.

English

Block-sparse attention is promising for accelerating long-context LLM pre-filling, yet identifying relevant blocks efficiently remains a bottleneck. Existing methods typically employ coarse-grained attention as a proxy for block importance estimation, but often resort to expensive token-level searching or scoring, resulting in significant selection overhead. In this work, we trace the inaccuracy of standard coarse-grained attention via mean pooling to a theoretical root cause: the interaction between mean pooling and Rotary Positional Embeddings (RoPE). We prove that mean pooling acts as a low-pass filter that induces destructive interference in high-frequency dimensions, effectively creating a "blind spot" for local positional information (e.g., slash patterns). To address this, we introduce Prism, a training-free spectral-aware approach that decomposes block selection into high-frequency and low-frequency branches. By applying energy-based temperature calibration, Prism restores the attenuated positional signals directly from pooled representations, enabling block importance estimation using purely block-level operations, thereby improving efficiency. Extensive evaluations confirm that Prism maintains accuracy parity with full attention while delivering up to 5.1times speedup.

Prisma: Attenzione Sparsa a Blocchi con Consapevolezza Spettrale

Prism: Spectral-Aware Block-Sparse Attention

Abstract

Support