ChatPaper.aiChatPaper

Meno è Più: Attenzione Sparsa Senza Addestramento con Località Globale per un Ragionamento Efficiente

Less Is More: Training-Free Sparse Attention with Global Locality for Efficient Reasoning

August 9, 2025
Autori: Lijie Yang, Zhihao Zhang, Arti Jain, Shijie Cao, Baihong Yuan, Yiwei Chen, Zhihao Jia, Ravi Netravali
cs.AI

Abstract

I grandi modelli di ragionamento raggiungono prestazioni elevate attraverso il ridimensionamento al momento del test, ma comportano un notevole sovraccarico computazionale, in particolare a causa della generazione eccessiva di token durante l'elaborazione di prompt di input brevi. Sebbene i meccanismi di attenzione sparsa possano ridurre la latenza e l'uso della memoria, gli approcci esistenti soffrono di un significativo degrado dell'accuratezza a causa di errori accumulati durante il ragionamento a lunga generazione. Questi metodi richiedono generalmente tassi di ritenzione dei token elevati o un costoso riaddestramento. Introduciamo LessIsMore, un meccanismo di attenzione sparsa senza addestramento per compiti di ragionamento, che sfrutta modelli di attenzione globale piuttosto che affidarsi a ottimizzazioni locali specifiche per testa. LessIsMore aggrega le selezioni di token dalle teste di attenzione locale con informazioni contestuali recenti, consentendo una classificazione unificata dei token tra le teste per i livelli di decodifica futuri. Questa selezione unificata migliora la generalizzazione e l'efficienza evitando la necessità di mantenere sottoinsiemi di token separati per ogni testa. La valutazione su vari compiti di ragionamento e benchmark mostra che LessIsMore preserva — e in alcuni casi migliora — l'accuratezza, ottenendo un aumento medio della velocità di decodifica di 1,1 volte rispetto all'attenzione completa. Inoltre, LessIsMore si concentra su 2 volte meno token senza perdita di accuratezza, raggiungendo un aumento della velocità end-to-end di 1,13 volte rispetto ai metodi di attenzione sparsa esistenti.
English
Large reasoning models achieve strong performance through test-time scaling but incur substantial computational overhead, particularly from excessive token generation when processing short input prompts. While sparse attention mechanisms can reduce latency and memory usage, existing approaches suffer from significant accuracy degradation due to accumulated errors during long-generation reasoning. These methods generally require either high token retention rates or expensive retraining. We introduce LessIsMore, a training-free sparse attention mechanism for reasoning tasks, which leverages global attention patterns rather than relying on traditional head-specific local optimizations. LessIsMore aggregates token selections from local attention heads with recent contextual information, enabling unified cross-head token ranking for future decoding layers. This unified selection improves generalization and efficiency by avoiding the need to maintain separate token subsets per head. Evaluation across diverse reasoning tasks and benchmarks shows that LessIsMore preserves -- and in some cases improves -- accuracy while achieving a 1.1times average decoding speed-up compared to full attention. Moreover, LessIsMore attends to 2times fewer tokens without accuracy loss, achieving a 1.13times end-to-end speed-up compared to existing sparse attention methods.
PDF132August 12, 2025