Moins, c'est plus : Attention parcimonieuse sans entraînement avec localité globale pour un raisonnement efficace
Less Is More: Training-Free Sparse Attention with Global Locality for Efficient Reasoning
August 9, 2025
papers.authors: Lijie Yang, Zhihao Zhang, Arti Jain, Shijie Cao, Baihong Yuan, Yiwei Chen, Zhihao Jia, Ravi Netravali
cs.AI
papers.abstract
Les grands modèles de raisonnement atteignent des performances élevées grâce à une mise à l'échelle au moment du test, mais engendrent une surcharge computationnelle importante, notamment en raison de la génération excessive de tokens lors du traitement de prompts d'entrée courts. Bien que les mécanismes d'attention parcimonieuse puissent réduire la latence et l'utilisation de la mémoire, les approches existantes souffrent d'une dégradation significative de la précision due à l'accumulation d'erreurs lors de raisonnements à long terme. Ces méthodes nécessitent généralement soit des taux de rétention de tokens élevés, soit un réentraînement coûteux. Nous présentons LessIsMore, un mécanisme d'attention parcimonieuse sans entraînement pour les tâches de raisonnement, qui exploite les modèles d'attention globaux plutôt que de s'appuyer sur des optimisations locales spécifiques à chaque tête. LessIsMore agrège les sélections de tokens des têtes d'attention locales avec des informations contextuelles récentes, permettant un classement unifié des tokens pour les couches de décodage futures. Cette sélection unifiée améliore la généralisation et l'efficacité en évitant la nécessité de maintenir des sous-ensembles de tokens distincts par tête. L'évaluation sur diverses tâches de raisonnement et benchmarks montre que LessIsMore préserve — et dans certains cas améliore — la précision tout en obtenant une accélération moyenne du décodage de 1,1 fois par rapport à l'attention complète. De plus, LessIsMore traite 2 fois moins de tokens sans perte de précision, atteignant une accélération de bout en bout de 1,13 fois par rapport aux méthodes d'attention parcimonieuse existantes.
English
Large reasoning models achieve strong performance through test-time scaling
but incur substantial computational overhead, particularly from excessive token
generation when processing short input prompts. While sparse attention
mechanisms can reduce latency and memory usage, existing approaches suffer from
significant accuracy degradation due to accumulated errors during
long-generation reasoning. These methods generally require either high token
retention rates or expensive retraining. We introduce LessIsMore, a
training-free sparse attention mechanism for reasoning tasks, which leverages
global attention patterns rather than relying on traditional head-specific
local optimizations. LessIsMore aggregates token selections from local
attention heads with recent contextual information, enabling unified cross-head
token ranking for future decoding layers. This unified selection improves
generalization and efficiency by avoiding the need to maintain separate token
subsets per head. Evaluation across diverse reasoning tasks and benchmarks
shows that LessIsMore preserves -- and in some cases improves -- accuracy while
achieving a 1.1times average decoding speed-up compared to full attention.
Moreover, LessIsMore attends to 2times fewer tokens without accuracy loss,
achieving a 1.13times end-to-end speed-up compared to existing sparse
attention methods.