Внимание освещает процесс рассуждения в больших языковых моделях: ритм предварительного планирования и привязки позволяет оптимизировать политику на детальном уровне
Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization
October 15, 2025
Авторы: Yang Li, Zhichen Dong, Yuhan Sun, Weixun Wang, Shaopan Xiong, Yijia Luo, Jiashun Liu, Han Lu, Jiamang Wang, Wenbo Su, Bo Zheng, Junchi Yan
cs.AI
Аннотация
Механизм рассуждения больших языковых моделей (LLM) остается непрозрачным, а обучение с подкреплением (RL) обычно применяет равномерное распределение "заслуг" на весь процесс генерации, что размывает различие между ключевыми и рутинными шагами. В данной работе внимание позиционируется как привилегированный субстрат, который делает внутреннюю логику LLM понятной, не просто как побочный продукт вычислений, а как механистическую схему самого процесса рассуждения. Сначала мы разделяем механизмы внимания на локально и глобально ориентированные процессы обработки информации и показываем, что локально ориентированные механизмы создают пилообразный паттерн вблизи диагонали, указывающий на фразовые фрагменты, в то время как глобально ориентированные механизмы выявляют токены, оказывающие широкое влияние на последующие токены. Мы формализуем это с помощью двух метрик: 1) Среднее расстояние внимания в окне, которое измеряет степень обратного внимания в ограниченном окне; 2) Влияние внимания на будущее, которое количественно определяет глобальную важность токена как среднее внимание, получаемое им от последующих токенов. В совокупности эти сигналы раскрывают повторяющийся механизм предварительного планирования и закрепления, при котором модель сначала выполняет долгосрочную контекстуальную ссылку для генерации вводного токена, за которым сразу следует или совпадает с ним семантический якорный токен, организующий последующие рассуждения. Используя эти инсайты, мы представляем три новые стратегии RL, которые динамически выполняют целевое распределение "заслуг" на критические узлы (токены предварительного планирования, якорные токены и их временную связь) и демонстрируют стабильное улучшение производительности в различных задачах рассуждения. Согласовывая оптимизацию с внутренним ритмом рассуждения модели, мы стремимся превратить непрозрачную оптимизацию в осознанный процесс, учитывающий структуру, что, как мы надеемся, станет шагом к более прозрачной и эффективной оптимизации рассуждений LLM.
English
The reasoning pattern of Large language models (LLMs) remains opaque, and
Reinforcement learning (RL) typically applies uniform credit across an entire
generation, blurring the distinction between pivotal and routine steps. This
work positions attention as a privileged substrate that renders the internal
logic of LLMs legible, not merely as a byproduct of computation, but as a
mechanistic blueprint of reasoning itself. We first distinguish attention heads
between locally and globally focused information processing and reveal that
locally focused heads produce a sawtooth pattern near the diagonal indicating
phrasal chunks, while globally focused heads expose tokens that exert broad
downstream influence over future tokens. We formalize these with two metrics:
1) Windowed Average Attention Distance, which measures the extent of backward
attention within a clipped window; 2) Future Attention Influence, which
quantifies a token's global importance as the average attention it receives
from subsequent tokens. Taken together, these signals reveal a recurring
preplan-and-anchor mechanism, where the model first performs a long-range
contextual reference to generate an introductory token, which is immediately
followed by or coincides with a semantic anchor token that organizes subsequent
reasoning. Leveraging these insights, we introduce three novel RL strategies
that dynamically perform targeted credit assignment to critical nodes (preplan
tokens, anchor tokens, and their temporal coupling) and show consistent
performance gains across various reasoning tasks. By aligning optimization with
the model's intrinsic reasoning rhythm, we aim to transform opaque optimization
into an actionable structure-aware process, hoping to offer a potential step
toward more transparent and effective optimization of LLM reasoning.