Prisma: Spectraal-Bewuste Blok-Sparse Aandacht

Samenvatting

Blok-sparse aandacht is veelbelovend voor het versnellen van het pre-fillen van LLM's met lange context, maar het efficiënt identificeren van relevante blokken blijft een knelpunt. Bestaande methoden gebruiken typisch grofkorrelige aandacht als benadering voor het schatten van blokimportantie, maar nemen vaak hun toevlucht tot dure token-level zoekopdrachten of scoring, wat leidt tot aanzienlijke selectie-overhead. In dit werk herleiden we de onnauwkeurigheid van standaard grofkorrelige aandacht via gemiddelde pooling naar een theoretische oorzaak: de interactie tussen gemiddelde pooling en Rotary Positional Embeddings (RoPE). Wij bewijzen dat gemiddelde pooling fungeert als een laagdoorlaatfilter dat destructieve interferentie induceert in hoogfrequente dimensies, wat effectief een "blinde vlek" creëert voor lokale positionele informatie (bijv., slash-patronen). Om dit aan te pakken, introduceren we Prism, een trainingsvrije spectraal-bewuste aanpak die blokselectie decomposeert in hoogfrequente en laagfrequente takken. Door op energie gebaseerde temperatuurkalibratie toe te passen, herstelt Prism de verzwakte positionele signalen direct uit de gepoolde representaties, waardoor blokimportantieschatting mogelijk wordt met puur blok-level operaties, wat de efficiëntie verbetert. Uitgebreide evaluaties bevestigen dat Prism de nauwkeurigheid van volledige aandacht evenaart en tegelijkertijd een versnelling tot 5,1 keer oplevert.

English

Block-sparse attention is promising for accelerating long-context LLM pre-filling, yet identifying relevant blocks efficiently remains a bottleneck. Existing methods typically employ coarse-grained attention as a proxy for block importance estimation, but often resort to expensive token-level searching or scoring, resulting in significant selection overhead. In this work, we trace the inaccuracy of standard coarse-grained attention via mean pooling to a theoretical root cause: the interaction between mean pooling and Rotary Positional Embeddings (RoPE). We prove that mean pooling acts as a low-pass filter that induces destructive interference in high-frequency dimensions, effectively creating a "blind spot" for local positional information (e.g., slash patterns). To address this, we introduce Prism, a training-free spectral-aware approach that decomposes block selection into high-frequency and low-frequency branches. By applying energy-based temperature calibration, Prism restores the attenuated positional signals directly from pooled representations, enabling block importance estimation using purely block-level operations, thereby improving efficiency. Extensive evaluations confirm that Prism maintains accuracy parity with full attention while delivering up to 5.1times speedup.

Prisma: Spectraal-Bewuste Blok-Sparse Aandacht

Prism: Spectral-Aware Block-Sparse Attention

Samenvatting

Support