적게 더 많다: 효율적 추론을 위한 전역 지역성을 갖춘 훈련 없는 희소 주의 메커니즘
Less Is More: Training-Free Sparse Attention with Global Locality for Efficient Reasoning
August 9, 2025
저자: Lijie Yang, Zhihao Zhang, Arti Jain, Shijie Cao, Baihong Yuan, Yiwei Chen, Zhihao Jia, Ravi Netravali
cs.AI
초록
대규모 추론 모델은 테스트 시점의 확장을 통해 강력한 성능을 달성하지만, 특히 짧은 입력 프롬프트를 처리할 때 과도한 토큰 생성으로 인해 상당한 계산 오버헤드가 발생합니다. 희소 주의 메커니즘은 지연 시간과 메모리 사용량을 줄일 수 있지만, 기존 방법들은 장기간 생성 추론 동안 누적된 오류로 인해 상당한 정확도 저하를 겪습니다. 이러한 방법들은 일반적으로 높은 토큰 보유율이나 비용이 많이 드는 재훈련을 요구합니다. 우리는 추론 작업을 위한 훈련이 필요 없는 희소 주의 메커니즘인 LessIsMore를 소개합니다. 이는 전통적인 헤드별 지역 최적화에 의존하기보다는 전역 주의 패턴을 활용합니다. LessIsMore는 지역 주의 헤드에서의 토큰 선택을 최근의 문맥 정보와 통합하여, 향후 디코딩 레이어를 위한 통합된 크로스-헤드 토큰 순위를 가능하게 합니다. 이 통합된 선택은 헤드별로 별도의 토큰 하위 집합을 유지할 필요를 피함으로써 일반화와 효율성을 개선합니다. 다양한 추론 작업과 벤치마크에 대한 평가 결과, LessIsMore는 전체 주의 대비 평균 1.1배의 디코딩 속도 향상을 달성하면서도 정확도를 유지하거나 경우에 따라 개선하는 것으로 나타났습니다. 더욱이, LessIsMore는 정확도 손실 없이 2배 적은 토큰에 주의를 기울이며, 기존의 희소 주의 방법 대비 1.13배의 종단 간 속도 향상을 달성합니다.
English
Large reasoning models achieve strong performance through test-time scaling
but incur substantial computational overhead, particularly from excessive token
generation when processing short input prompts. While sparse attention
mechanisms can reduce latency and memory usage, existing approaches suffer from
significant accuracy degradation due to accumulated errors during
long-generation reasoning. These methods generally require either high token
retention rates or expensive retraining. We introduce LessIsMore, a
training-free sparse attention mechanism for reasoning tasks, which leverages
global attention patterns rather than relying on traditional head-specific
local optimizations. LessIsMore aggregates token selections from local
attention heads with recent contextual information, enabling unified cross-head
token ranking for future decoding layers. This unified selection improves
generalization and efficiency by avoiding the need to maintain separate token
subsets per head. Evaluation across diverse reasoning tasks and benchmarks
shows that LessIsMore preserves -- and in some cases improves -- accuracy while
achieving a 1.1times average decoding speed-up compared to full attention.
Moreover, LessIsMore attends to 2times fewer tokens without accuracy loss,
achieving a 1.13times end-to-end speed-up compared to existing sparse
attention methods.