注意がLLMの推論を照らす:事前計画とアンカーリズムによる細粒度ポリシー最適化
Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization
October 15, 2025
著者: Yang Li, Zhichen Dong, Yuhan Sun, Weixun Wang, Shaopan Xiong, Yijia Luo, Jiashun Liu, Han Lu, Jiamang Wang, Wenbo Su, Bo Zheng, Junchi Yan
cs.AI
要旨
大規模言語モデル(LLM)の推論パターンは依然として不透明であり、強化学習(RL)は通常、生成全体に均一な信用を適用するため、重要なステップと日常的なステップの区別が曖昧になる。本研究では、注意(attention)を特権的な基盤として位置づけ、LLMの内部ロジックを可視化する。これは単なる計算の副産物ではなく、推論そのもののメカニズムの青図として機能する。まず、注意ヘッドを局所的および全体的に焦点を当てた情報処理に分類し、局所的焦点を当てたヘッドはフレーズのチャンクを示す対角線付近でノコギリ波パターンを生成し、全体的焦点を当てたヘッドは将来のトークンに広範な下流影響を及ぼすトークンを明らかにする。これらを2つの指標で形式化する:1)ウィンドウ平均注意距離(Windowed Average Attention Distance)は、クリップされたウィンドウ内での後方注意の範囲を測定する;2)将来注意影響度(Future Attention Influence)は、トークンが後続のトークンから受ける注意の平均としてそのグローバルな重要性を定量化する。これらの信号を統合すると、モデルがまず長距離の文脈参照を行って導入トークンを生成し、直後にまたは同時にセマンティックアンカートークンが現れてその後の推論を組織化する、繰り返しの事前計画とアンカーメカニズムが明らかになる。これらの知見を活用し、重要なノード(事前計画トークン、アンカートークン、およびそれらの時間的結合)に対して動的にターゲットを絞った信用割り当てを行う3つの新しいRL戦略を導入し、様々な推論タスクで一貫した性能向上を示す。最適化をモデルの内在的な推論リズムに合わせることで、不透明な最適化を実行可能な構造認識プロセスに変換し、LLM推論のより透明で効果的な最適化に向けた潜在的な一歩を提供することを目指す。
English
The reasoning pattern of Large language models (LLMs) remains opaque, and
Reinforcement learning (RL) typically applies uniform credit across an entire
generation, blurring the distinction between pivotal and routine steps. This
work positions attention as a privileged substrate that renders the internal
logic of LLMs legible, not merely as a byproduct of computation, but as a
mechanistic blueprint of reasoning itself. We first distinguish attention heads
between locally and globally focused information processing and reveal that
locally focused heads produce a sawtooth pattern near the diagonal indicating
phrasal chunks, while globally focused heads expose tokens that exert broad
downstream influence over future tokens. We formalize these with two metrics:
1) Windowed Average Attention Distance, which measures the extent of backward
attention within a clipped window; 2) Future Attention Influence, which
quantifies a token's global importance as the average attention it receives
from subsequent tokens. Taken together, these signals reveal a recurring
preplan-and-anchor mechanism, where the model first performs a long-range
contextual reference to generate an introductory token, which is immediately
followed by or coincides with a semantic anchor token that organizes subsequent
reasoning. Leveraging these insights, we introduce three novel RL strategies
that dynamically perform targeted credit assignment to critical nodes (preplan
tokens, anchor tokens, and their temporal coupling) and show consistent
performance gains across various reasoning tasks. By aligning optimization with
the model's intrinsic reasoning rhythm, we aim to transform opaque optimization
into an actionable structure-aware process, hoping to offer a potential step
toward more transparent and effective optimization of LLM reasoning.