Weniger ist mehr: Trainingsfreie Sparse Attention mit globaler Lokalität für effizientes Schließen
Less Is More: Training-Free Sparse Attention with Global Locality for Efficient Reasoning
August 9, 2025
papers.authors: Lijie Yang, Zhihao Zhang, Arti Jain, Shijie Cao, Baihong Yuan, Yiwei Chen, Zhihao Jia, Ravi Netravali
cs.AI
papers.abstract
Große Reasoning-Modelle erzielen eine starke Leistung durch Skalierung zur Testzeit, verursachen jedoch erheblichen Rechenaufwand, insbesondere durch übermäßige Token-Generierung bei der Verarbeitung kurzer Eingabeaufforderungen. Während spärliche Aufmerksamkeitsmechanismen Latenz und Speicherverbrauch reduzieren können, leiden bestehende Ansätze unter erheblicher Genauigkeitseinbuße aufgrund von akkumulierten Fehlern während langwieriger Reasoning-Generierung. Diese Methoden erfordern in der Regel entweder hohe Token-Retentionsraten oder kostspieliges Retraining. Wir stellen LessIsMore vor, einen trainingsfreien spärlichen Aufmerksamkeitsmechanismus für Reasoning-Aufgaben, der globale Aufmerksamkeitsmuster nutzt, anstatt sich auf traditionelle kopf-spezifische lokale Optimierungen zu verlassen. LessIsMore aggregiert Token-Auswahlen aus lokalen Aufmerksamkeitsköpfen mit aktuellen Kontextinformationen, wodurch eine einheitliche kopfübergreifende Token-Rangfolge für zukünftige Decodierungsschichten ermöglicht wird. Diese einheitliche Auswahl verbessert die Generalisierung und Effizienz, indem die Notwendigkeit entfällt, separate Token-Teilmengen pro Kopf zu pflegen. Die Bewertung über verschiedene Reasoning-Aufgaben und Benchmarks zeigt, dass LessIsMore die Genauigkeit bewahrt – und in einigen Fällen sogar verbessert – während es im Durchschnitt eine 1,1-fache Decodierungsbeschleunigung im Vergleich zur vollständigen Aufmerksamkeit erreicht. Darüber hinaus berücksichtigt LessIsMore 2-mal weniger Token ohne Genauigkeitsverlust und erzielt eine 1,13-fache End-to-End-Beschleunigung im Vergleich zu bestehenden spärlichen Aufmerksamkeitsmethoden.
English
Large reasoning models achieve strong performance through test-time scaling
but incur substantial computational overhead, particularly from excessive token
generation when processing short input prompts. While sparse attention
mechanisms can reduce latency and memory usage, existing approaches suffer from
significant accuracy degradation due to accumulated errors during
long-generation reasoning. These methods generally require either high token
retention rates or expensive retraining. We introduce LessIsMore, a
training-free sparse attention mechanism for reasoning tasks, which leverages
global attention patterns rather than relying on traditional head-specific
local optimizations. LessIsMore aggregates token selections from local
attention heads with recent contextual information, enabling unified cross-head
token ranking for future decoding layers. This unified selection improves
generalization and efficiency by avoiding the need to maintain separate token
subsets per head. Evaluation across diverse reasoning tasks and benchmarks
shows that LessIsMore preserves -- and in some cases improves -- accuracy while
achieving a 1.1times average decoding speed-up compared to full attention.
Moreover, LessIsMore attends to 2times fewer tokens without accuracy loss,
achieving a 1.13times end-to-end speed-up compared to existing sparse
attention methods.