Menos é Mais: Atenção Esparsa Sem Treinamento com Localidade Global para Raciocínio Eficiente
Less Is More: Training-Free Sparse Attention with Global Locality for Efficient Reasoning
August 9, 2025
Autores: Lijie Yang, Zhihao Zhang, Arti Jain, Shijie Cao, Baihong Yuan, Yiwei Chen, Zhihao Jia, Ravi Netravali
cs.AI
Resumo
Modelos de raciocínio em larga escala alcançam alto desempenho por meio de escalonamento em tempo de teste, mas incorrem em um custo computacional significativo, especialmente devido à geração excessiva de tokens ao processar prompts de entrada curtos. Embora mecanismos de atenção esparsa possam reduzir a latência e o uso de memória, as abordagens existentes sofrem com uma degradação significativa na precisão devido a erros acumulados durante o raciocínio de geração longa. Esses métodos geralmente exigem altas taxas de retenção de tokens ou retreinamento custoso. Apresentamos o LessIsMore, um mecanismo de atenção esparsa sem necessidade de treinamento para tarefas de raciocínio, que aproveita padrões globais de atenção em vez de depender de otimizações locais específicas por cabeça, como é tradicional. O LessIsMore agrega seleções de tokens de cabeças de atenção locais com informações contextuais recentes, permitindo uma classificação unificada de tokens entre cabeças para camadas de decodificação futuras. Essa seleção unificada melhora a generalização e a eficiência ao evitar a necessidade de manter subconjuntos separados de tokens por cabeça. Avaliações em diversas tarefas de raciocínio e benchmarks mostram que o LessIsMore preserva — e em alguns casos melhora — a precisão enquanto alcança um aumento médio de 1,1 vezes na velocidade de decodificação em comparação com a atenção completa. Além disso, o LessIsMore atende a 2 vezes menos tokens sem perda de precisão, alcançando um aumento de 1,13 vezes na velocidade de ponta a ponta em comparação com métodos de atenção esparsa existentes.
English
Large reasoning models achieve strong performance through test-time scaling
but incur substantial computational overhead, particularly from excessive token
generation when processing short input prompts. While sparse attention
mechanisms can reduce latency and memory usage, existing approaches suffer from
significant accuracy degradation due to accumulated errors during
long-generation reasoning. These methods generally require either high token
retention rates or expensive retraining. We introduce LessIsMore, a
training-free sparse attention mechanism for reasoning tasks, which leverages
global attention patterns rather than relying on traditional head-specific
local optimizations. LessIsMore aggregates token selections from local
attention heads with recent contextual information, enabling unified cross-head
token ranking for future decoding layers. This unified selection improves
generalization and efficiency by avoiding the need to maintain separate token
subsets per head. Evaluation across diverse reasoning tasks and benchmarks
shows that LessIsMore preserves -- and in some cases improves -- accuracy while
achieving a 1.1times average decoding speed-up compared to full attention.
Moreover, LessIsMore attends to 2times fewer tokens without accuracy loss,
achieving a 1.13times end-to-end speed-up compared to existing sparse
attention methods.