ChatPaper.aiChatPaper

Menos es Más: Atención Escasa sin Entrenamiento con Localidad Global para Razonamiento Eficiente

Less Is More: Training-Free Sparse Attention with Global Locality for Efficient Reasoning

August 9, 2025
Autores: Lijie Yang, Zhihao Zhang, Arti Jain, Shijie Cao, Baihong Yuan, Yiwei Chen, Zhihao Jia, Ravi Netravali
cs.AI

Resumen

Los modelos de razonamiento a gran escala logran un alto rendimiento mediante el escalado en tiempo de prueba, pero incurren en un sobrecosto computacional significativo, particularmente debido a la generación excesiva de tokens al procesar entradas cortas. Si bien los mecanismos de atención dispersa pueden reducir la latencia y el uso de memoria, los enfoques existentes sufren una degradación considerable en la precisión debido a errores acumulados durante el razonamiento de generación prolongada. Estos métodos generalmente requieren altas tasas de retención de tokens o un costoso reentrenamiento. Presentamos LessIsMore, un mecanismo de atención dispersa sin necesidad de entrenamiento para tareas de razonamiento, que aprovecha patrones globales de atención en lugar de depender de optimizaciones locales específicas por cabeza. LessIsMore agrega selecciones de tokens de cabezas de atención locales con información contextual reciente, permitiendo una clasificación unificada de tokens entre cabezas para capas de decodificación futuras. Esta selección unificada mejora la generalización y la eficiencia al evitar la necesidad de mantener subconjuntos de tokens separados por cabeza. La evaluación en diversas tareas de razonamiento y benchmarks muestra que LessIsMore preserva —y en algunos casos mejora— la precisión mientras logra una aceleración promedio de 1.1 veces en la decodificación en comparación con la atención completa. Además, LessIsMore atiende a 2 veces menos tokens sin pérdida de precisión, logrando una aceleración de 1.13 veces de extremo a extremo en comparación con los métodos de atención dispersa existentes.
English
Large reasoning models achieve strong performance through test-time scaling but incur substantial computational overhead, particularly from excessive token generation when processing short input prompts. While sparse attention mechanisms can reduce latency and memory usage, existing approaches suffer from significant accuracy degradation due to accumulated errors during long-generation reasoning. These methods generally require either high token retention rates or expensive retraining. We introduce LessIsMore, a training-free sparse attention mechanism for reasoning tasks, which leverages global attention patterns rather than relying on traditional head-specific local optimizations. LessIsMore aggregates token selections from local attention heads with recent contextual information, enabling unified cross-head token ranking for future decoding layers. This unified selection improves generalization and efficiency by avoiding the need to maintain separate token subsets per head. Evaluation across diverse reasoning tasks and benchmarks shows that LessIsMore preserves -- and in some cases improves -- accuracy while achieving a 1.1times average decoding speed-up compared to full attention. Moreover, LessIsMore attends to 2times fewer tokens without accuracy loss, achieving a 1.13times end-to-end speed-up compared to existing sparse attention methods.
PDF122August 12, 2025