Meno è Più: Attenzione Sparsa Senza Addestramento con Località Globale per un Ragionamento Efficiente
Less Is More: Training-Free Sparse Attention with Global Locality for Efficient Reasoning
August 9, 2025
Autori: Lijie Yang, Zhihao Zhang, Arti Jain, Shijie Cao, Baihong Yuan, Yiwei Chen, Zhihao Jia, Ravi Netravali
cs.AI
Abstract
I grandi modelli di ragionamento raggiungono prestazioni elevate attraverso il ridimensionamento al momento del test, ma comportano un notevole sovraccarico computazionale, in particolare a causa della generazione eccessiva di token durante l'elaborazione di prompt di input brevi. Sebbene i meccanismi di attenzione sparsa possano ridurre la latenza e l'uso della memoria, gli approcci esistenti soffrono di un significativo degrado dell'accuratezza a causa di errori accumulati durante il ragionamento a lunga generazione. Questi metodi richiedono generalmente tassi di ritenzione dei token elevati o un costoso riaddestramento. Introduciamo LessIsMore, un meccanismo di attenzione sparsa senza addestramento per compiti di ragionamento, che sfrutta modelli di attenzione globale piuttosto che affidarsi a ottimizzazioni locali specifiche per testa. LessIsMore aggrega le selezioni di token dalle teste di attenzione locale con informazioni contestuali recenti, consentendo una classificazione unificata dei token tra le teste per i livelli di decodifica futuri. Questa selezione unificata migliora la generalizzazione e l'efficienza evitando la necessità di mantenere sottoinsiemi di token separati per ogni testa. La valutazione su vari compiti di ragionamento e benchmark mostra che LessIsMore preserva — e in alcuni casi migliora — l'accuratezza, ottenendo un aumento medio della velocità di decodifica di 1,1 volte rispetto all'attenzione completa. Inoltre, LessIsMore si concentra su 2 volte meno token senza perdita di accuratezza, raggiungendo un aumento della velocità end-to-end di 1,13 volte rispetto ai metodi di attenzione sparsa esistenti.
English
Large reasoning models achieve strong performance through test-time scaling
but incur substantial computational overhead, particularly from excessive token
generation when processing short input prompts. While sparse attention
mechanisms can reduce latency and memory usage, existing approaches suffer from
significant accuracy degradation due to accumulated errors during
long-generation reasoning. These methods generally require either high token
retention rates or expensive retraining. We introduce LessIsMore, a
training-free sparse attention mechanism for reasoning tasks, which leverages
global attention patterns rather than relying on traditional head-specific
local optimizations. LessIsMore aggregates token selections from local
attention heads with recent contextual information, enabling unified cross-head
token ranking for future decoding layers. This unified selection improves
generalization and efficiency by avoiding the need to maintain separate token
subsets per head. Evaluation across diverse reasoning tasks and benchmarks
shows that LessIsMore preserves -- and in some cases improves -- accuracy while
achieving a 1.1times average decoding speed-up compared to full attention.
Moreover, LessIsMore attends to 2times fewer tokens without accuracy loss,
achieving a 1.13times end-to-end speed-up compared to existing sparse
attention methods.