ChatPaper.aiChatPaper

Prisma: Atención Dispersa por Bloques con Conciencia Espectral

Prism: Spectral-Aware Block-Sparse Attention

February 9, 2026
Autores: Xinghao Wang, Pengyu Wang, Xiaoran Liu, Fangxu Liu, Jason Chu, Kai Song, Xipeng Qiu
cs.AI

Resumen

La atención dispersa por bloques es prometedora para acelerar el prellenado de LLM de contexto largo, pero la identificación eficiente de bloques relevantes sigue siendo un cuello de botella. Los métodos existentes suelen emplear atención de grano grueso como aproximación para estimar la importancia de los bloques, pero a menudo recurren a búsquedas o puntuaciones costosas a nivel de token, lo que genera una sobrecarga de selección significativa. En este trabajo, rastreamos la imprecisión de la atención estándar de grano grueso mediante promedio global (mean pooling) hasta una causa teórica fundamental: la interacción entre el promedio global y los Embeddings Posicionales Rotatorios (RoPE). Demostramos que el promedio global actúa como un filtro de paso bajo que induce interferencia destructiva en las dimensiones de alta frecuencia, creando efectivamente un "punto ciego" para la información posicional local (por ejemplo, patrones de barra). Para abordar esto, presentamos Prism, un enfoque espectral libre de entrenamiento que descompone la selección de bloques en ramas de alta y baja frecuencia. Mediante la aplicación de una calibración de temperatura basada en energía, Prism restaura las señales posicionales atenuadas directamente desde las representaciones agrupadas, permitiendo la estimación de la importancia de los bloques utilizando únicamente operaciones a nivel de bloque, mejorando así la eficiencia. Evaluaciones exhaustivas confirman que Prism mantiene una precisión equivalente a la atención completa mientras ofrece una aceleración de hasta 5.1 veces.
English
Block-sparse attention is promising for accelerating long-context LLM pre-filling, yet identifying relevant blocks efficiently remains a bottleneck. Existing methods typically employ coarse-grained attention as a proxy for block importance estimation, but often resort to expensive token-level searching or scoring, resulting in significant selection overhead. In this work, we trace the inaccuracy of standard coarse-grained attention via mean pooling to a theoretical root cause: the interaction between mean pooling and Rotary Positional Embeddings (RoPE). We prove that mean pooling acts as a low-pass filter that induces destructive interference in high-frequency dimensions, effectively creating a "blind spot" for local positional information (e.g., slash patterns). To address this, we introduce Prism, a training-free spectral-aware approach that decomposes block selection into high-frequency and low-frequency branches. By applying energy-based temperature calibration, Prism restores the attenuated positional signals directly from pooled representations, enabling block importance estimation using purely block-level operations, thereby improving efficiency. Extensive evaluations confirm that Prism maintains accuracy parity with full attention while delivering up to 5.1times speedup.
PDF312February 12, 2026