ChatPaper.aiChatPaper

프리즘: 스펙트럼 인식 블록 희소 어텐션

Prism: Spectral-Aware Block-Sparse Attention

February 9, 2026
저자: Xinghao Wang, Pengyu Wang, Xiaoran Liu, Fangxu Liu, Jason Chu, Kai Song, Xipeng Qiu
cs.AI

초록

블록 희소 주의(block-sparse attention)는 장문 컨텍스트 LLM 사전 채우기(pre-filling) 속도 향상에 유망하지만, 관련 블록을 효율적으로 식별하는 것은 여전히 병목 현상으로 남아 있습니다. 기존 방법들은 일반적으로 블록 중요도 추정을 위한 대리 지표로 coarse-grained attention을 사용하지만, 종종 비용이 많이 드는 토큰 수준 검색 또는 스코어링에 의존하여 상당한 선택 오버헤드를 초래합니다. 본 연구에서는 평균 풀링(mean pooling)을 사용하는 표준 coarse-grained attention의 부정확성 원인을 Rotary Positional Embeddings (RoPE)와의 이론적 상호작용으로 추적합니다. 우리는 평균 풀링이 고주파 차원에서 파괴적 간섭을 유발하는 저역통과 필터 역할을 하여, 국소 위치 정보(예: 슬래시 패턴)에 대한 "시각 사각지대"를 효과적으로 생성함을 증명합니다. 이를 해결하기 위해 우리는 훈련이 필요 없는 스펙트럼 인식 접근법인 Prism을 소개합니다. Prism은 블록 선택을 고주파 및 저주파 브랜치로 분해합니다. 에너지 기반 온도 보정(energy-based temperature calibration)을 적용함으로써, Prism은 풀링된 표현에서 직접 감쇠된 위치 신호를 복원하여 순수하게 블록 수준 연산만으로 블록 중요도 추정을 가능하게 하여 효율성을 향상시킵니다. 광범위한 평가를 통해 Prism은 전체 주의(full attention)와 동등한 정확도를 유지하면서 최대 5.1배의 속도 향상을 제공함을 확인했습니다.
English
Block-sparse attention is promising for accelerating long-context LLM pre-filling, yet identifying relevant blocks efficiently remains a bottleneck. Existing methods typically employ coarse-grained attention as a proxy for block importance estimation, but often resort to expensive token-level searching or scoring, resulting in significant selection overhead. In this work, we trace the inaccuracy of standard coarse-grained attention via mean pooling to a theoretical root cause: the interaction between mean pooling and Rotary Positional Embeddings (RoPE). We prove that mean pooling acts as a low-pass filter that induces destructive interference in high-frequency dimensions, effectively creating a "blind spot" for local positional information (e.g., slash patterns). To address this, we introduce Prism, a training-free spectral-aware approach that decomposes block selection into high-frequency and low-frequency branches. By applying energy-based temperature calibration, Prism restores the attenuated positional signals directly from pooled representations, enabling block importance estimation using purely block-level operations, thereby improving efficiency. Extensive evaluations confirm that Prism maintains accuracy parity with full attention while delivering up to 5.1times speedup.
PDF312February 12, 2026