Призма: Спектрально-осведомленное блочно-разреженное внимание
Prism: Spectral-Aware Block-Sparse Attention
February 9, 2026
Авторы: Xinghao Wang, Pengyu Wang, Xiaoran Liu, Fangxu Liu, Jason Chu, Kai Song, Xipeng Qiu
cs.AI
Аннотация
Блочно-разреженное внимание является перспективным подходом для ускорения предварительного заполнения (pre-filling) языковых моделей с большим контекстом, однако эффективное определение релевантных блоков остается узким местом. Существующие методы обычно используют грубую (coarse-grained) аппроксимацию внимания для оценки важности блоков, но зачастую прибегают к дорогостоящему поиску или оценке на уровне токенов, что приводит к значительным накладным расходам при отборе. В данной работе мы прослеживаем неточность стандартной грубой аппроксимации внимания через усредняющее пулирование (mean pooling) до теоретической первопричины: взаимодействия между усредняющим пулированием и ротационными позиционными эмбеддингами (RoPE). Мы доказываем, что усредняющее пулирование действует как фильтр нижних частот, вызывающий деструктивную интерференцию в высокочастотных измерениях, что фактически создает "слепое пятно" для локальной позиционной информации (например, шаблонов слэша). Для решения этой проблемы мы представляем Prism — беспараметрический спектрально-ориентированный подход, который разлагает выбор блоков на высокочастотную и низкочастотную ветви. Применяя калибровку температуры на основе энергии, Prism восстанавливает ослабленные позиционные сигналы непосредственно из агрегированных представлений, позволяя оценивать важность блоков, используя исключительно операции на уровне блоков, что повышает эффективность. Результаты масштабного тестирования подтверждают, что Prism сохраняет точность на уровне полного внимания, обеспечивая при этом ускорение до 5,1 раза.
English
Block-sparse attention is promising for accelerating long-context LLM pre-filling, yet identifying relevant blocks efficiently remains a bottleneck. Existing methods typically employ coarse-grained attention as a proxy for block importance estimation, but often resort to expensive token-level searching or scoring, resulting in significant selection overhead. In this work, we trace the inaccuracy of standard coarse-grained attention via mean pooling to a theoretical root cause: the interaction between mean pooling and Rotary Positional Embeddings (RoPE). We prove that mean pooling acts as a low-pass filter that induces destructive interference in high-frequency dimensions, effectively creating a "blind spot" for local positional information (e.g., slash patterns). To address this, we introduce Prism, a training-free spectral-aware approach that decomposes block selection into high-frequency and low-frequency branches. By applying energy-based temperature calibration, Prism restores the attenuated positional signals directly from pooled representations, enabling block importance estimation using purely block-level operations, thereby improving efficiency. Extensive evaluations confirm that Prism maintains accuracy parity with full attention while delivering up to 5.1times speedup.