Minder is Meer: Trainingsvrije Sparse Attention met Globale Localiteit voor Efficiënt Redeneren

Samenvatting

Grote redeneermodellen behalen sterke prestaties door schaling tijdens de testfase, maar veroorzaken aanzienlijke rekenkosten, met name door overmatige token-generatie bij het verwerken van korte invoerprompts. Hoewel sparse attention-mechanismen de latentie en het geheugengebruik kunnen verminderen, lijden bestaande benaderingen onder aanzienlijke nauwkeurigheidsvermindering door opgestapelde fouten tijdens langdurige redenering. Deze methoden vereisen over het algemeen ofwel hoge token-retentieratio's of kostbare hertraining. Wij introduceren LessIsMore, een trainingsvrij sparse attention-mechanisme voor redeneertaken, dat gebruikmaakt van globale aandachtspatronen in plaats van te vertrouwen op traditionele, headspecifieke lokale optimalisaties. LessIsMore aggregeert tokenselecties van lokale attention-heads met recente contextuele informatie, waardoor een uniforme cross-head token-ranking mogelijk wordt voor toekomstige decodeerlagen. Deze uniforme selectie verbetert de generalisatie en efficiëntie door de noodzaak te vermijden om afzonderlijke tokensubsets per head te onderhouden. Evaluatie over diverse redeneertaken en benchmarks toont aan dat LessIsMore de nauwkeurigheid behoudt – en in sommige gevallen zelfs verbetert – terwijl het een gemiddelde decodeersnelheidsverbetering van 1,1 keer bereikt in vergelijking met volledige aandacht. Bovendien besteedt LessIsMore aandacht aan 2 keer minder tokens zonder verlies van nauwkeurigheid, wat resulteert in een end-to-end snelheidsverbetering van 1,13 keer in vergelijking met bestaande sparse attention-methoden.

English

Large reasoning models achieve strong performance through test-time scaling but incur substantial computational overhead, particularly from excessive token generation when processing short input prompts. While sparse attention mechanisms can reduce latency and memory usage, existing approaches suffer from significant accuracy degradation due to accumulated errors during long-generation reasoning. These methods generally require either high token retention rates or expensive retraining. We introduce LessIsMore, a training-free sparse attention mechanism for reasoning tasks, which leverages global attention patterns rather than relying on traditional head-specific local optimizations. LessIsMore aggregates token selections from local attention heads with recent contextual information, enabling unified cross-head token ranking for future decoding layers. This unified selection improves generalization and efficiency by avoiding the need to maintain separate token subsets per head. Evaluation across diverse reasoning tasks and benchmarks shows that LessIsMore preserves -- and in some cases improves -- accuracy while achieving a 1.1times average decoding speed-up compared to full attention. Moreover, LessIsMore attends to 2times fewer tokens without accuracy loss, achieving a 1.13times end-to-end speed-up compared to existing sparse attention methods.

Minder is Meer: Trainingsvrije Sparse Attention met Globale Localiteit voor Efficiënt Redeneren

Less Is More: Training-Free Sparse Attention with Global Locality for Efficient Reasoning

Samenvatting

Support