Меньше — значит больше: Обучение без обучения разреженного внимания с глобальной локальностью для эффективного рассуждения
Less Is More: Training-Free Sparse Attention with Global Locality for Efficient Reasoning
August 9, 2025
Авторы: Lijie Yang, Zhihao Zhang, Arti Jain, Shijie Cao, Baihong Yuan, Yiwei Chen, Zhihao Jia, Ravi Netravali
cs.AI
Аннотация
Крупные модели рассуждений достигают высокой производительности за счет масштабирования во время тестирования, но требуют значительных вычислительных ресурсов, особенно из-за чрезмерной генерации токенов при обработке коротких входных запросов. Хотя разреженные механизмы внимания могут снизить задержку и использование памяти, существующие подходы страдают от значительного ухудшения точности из-за накопления ошибок в процессе длительного рассуждения. Эти методы обычно требуют либо высоких показателей удержания токенов, либо дорогостоящего переобучения. Мы представляем LessIsMore, механизм разреженного внимания для задач рассуждений, не требующий обучения, который использует глобальные паттерны внимания вместо традиционных локальных оптимизаций, специфичных для отдельных голов. LessIsMore объединяет выбор токенов из локальных голов внимания с актуальной контекстной информацией, что позволяет осуществлять унифицированный ранжирование токенов для будущих слоев декодирования. Этот унифицированный выбор улучшает обобщение и эффективность, устраняя необходимость поддерживать отдельные подмножества токенов для каждой головы. Оценка на различных задачах рассуждений и бенчмарках показывает, что LessIsMore сохраняет — а в некоторых случаях даже улучшает — точность, достигая ускорения декодирования в среднем в 1.1 раза по сравнению с полным вниманием. Более того, LessIsMore обрабатывает в 2 раза меньше токенов без потери точности, достигая ускорения end-to-end в 1.13 раза по сравнению с существующими методами разреженного внимания.
English
Large reasoning models achieve strong performance through test-time scaling
but incur substantial computational overhead, particularly from excessive token
generation when processing short input prompts. While sparse attention
mechanisms can reduce latency and memory usage, existing approaches suffer from
significant accuracy degradation due to accumulated errors during
long-generation reasoning. These methods generally require either high token
retention rates or expensive retraining. We introduce LessIsMore, a
training-free sparse attention mechanism for reasoning tasks, which leverages
global attention patterns rather than relying on traditional head-specific
local optimizations. LessIsMore aggregates token selections from local
attention heads with recent contextual information, enabling unified cross-head
token ranking for future decoding layers. This unified selection improves
generalization and efficiency by avoiding the need to maintain separate token
subsets per head. Evaluation across diverse reasoning tasks and benchmarks
shows that LessIsMore preserves -- and in some cases improves -- accuracy while
achieving a 1.1times average decoding speed-up compared to full attention.
Moreover, LessIsMore attends to 2times fewer tokens without accuracy loss,
achieving a 1.13times end-to-end speed-up compared to existing sparse
attention methods.