Minder is Meer: Trainingsvrije Sparse Attention met Globale Localiteit voor Efficiënt Redeneren
Less Is More: Training-Free Sparse Attention with Global Locality for Efficient Reasoning
August 9, 2025
Auteurs: Lijie Yang, Zhihao Zhang, Arti Jain, Shijie Cao, Baihong Yuan, Yiwei Chen, Zhihao Jia, Ravi Netravali
cs.AI
Samenvatting
Grote redeneermodellen behalen sterke prestaties door schaling tijdens de testfase, maar veroorzaken aanzienlijke rekenkosten, met name door overmatige token-generatie bij het verwerken van korte invoerprompts. Hoewel sparse attention-mechanismen de latentie en het geheugengebruik kunnen verminderen, lijden bestaande benaderingen onder aanzienlijke nauwkeurigheidsvermindering door opgestapelde fouten tijdens langdurige redenering. Deze methoden vereisen over het algemeen ofwel hoge token-retentieratio's of kostbare hertraining. Wij introduceren LessIsMore, een trainingsvrij sparse attention-mechanisme voor redeneertaken, dat gebruikmaakt van globale aandachtspatronen in plaats van te vertrouwen op traditionele, headspecifieke lokale optimalisaties. LessIsMore aggregeert tokenselecties van lokale attention-heads met recente contextuele informatie, waardoor een uniforme cross-head token-ranking mogelijk wordt voor toekomstige decodeerlagen. Deze uniforme selectie verbetert de generalisatie en efficiëntie door de noodzaak te vermijden om afzonderlijke tokensubsets per head te onderhouden. Evaluatie over diverse redeneertaken en benchmarks toont aan dat LessIsMore de nauwkeurigheid behoudt – en in sommige gevallen zelfs verbetert – terwijl het een gemiddelde decodeersnelheidsverbetering van 1,1 keer bereikt in vergelijking met volledige aandacht. Bovendien besteedt LessIsMore aandacht aan 2 keer minder tokens zonder verlies van nauwkeurigheid, wat resulteert in een end-to-end snelheidsverbetering van 1,13 keer in vergelijking met bestaande sparse attention-methoden.
English
Large reasoning models achieve strong performance through test-time scaling
but incur substantial computational overhead, particularly from excessive token
generation when processing short input prompts. While sparse attention
mechanisms can reduce latency and memory usage, existing approaches suffer from
significant accuracy degradation due to accumulated errors during
long-generation reasoning. These methods generally require either high token
retention rates or expensive retraining. We introduce LessIsMore, a
training-free sparse attention mechanism for reasoning tasks, which leverages
global attention patterns rather than relying on traditional head-specific
local optimizations. LessIsMore aggregates token selections from local
attention heads with recent contextual information, enabling unified cross-head
token ranking for future decoding layers. This unified selection improves
generalization and efficiency by avoiding the need to maintain separate token
subsets per head. Evaluation across diverse reasoning tasks and benchmarks
shows that LessIsMore preserves -- and in some cases improves -- accuracy while
achieving a 1.1times average decoding speed-up compared to full attention.
Moreover, LessIsMore attends to 2times fewer tokens without accuracy loss,
achieving a 1.13times end-to-end speed-up compared to existing sparse
attention methods.