주의는 LLM 추론을 조명한다: 사전 계획 및 앵커 리듬이 세밀한 정책 최적화를 가능하게 한다
Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization
October 15, 2025
저자: Yang Li, Zhichen Dong, Yuhan Sun, Weixun Wang, Shaopan Xiong, Yijia Luo, Jiashun Liu, Han Lu, Jiamang Wang, Wenbo Su, Bo Zheng, Junchi Yan
cs.AI
초록
대규모 언어 모델(LLMs)의 추론 패턴은 여전히 불투명하며, 강화 학습(RL)은 일반적으로 전체 세대에 걸쳐 균일한 크레딧을 적용함으로써 핵심 단계와 일상적인 단계 간의 구분을 흐리게 만듭니다. 본 연구는 주의(attention)를 LLMs의 내부 논리를 가시화하는 특권적 기반으로 위치시켜, 단순히 계산의 부산물이 아닌 추론 자체의 기계적 청사진으로서의 역할을 강조합니다. 먼저, 주의 헤드(attention heads)를 지역적 및 전역적 정보 처리로 구분하고, 지역적 주의 헤드는 구문 덩어리를 나타내는 대각선 근처의 톱니 패턴을 생성하는 반면, 전역적 주의 헤드는 미래 토큰에 광범위한 하류 영향을 미치는 토큰을 드러냄을 보입니다. 이를 두 가지 메트릭으로 공식화합니다: 1) 윈도우 평균 주의 거리(Windowed Average Attention Distance), 이는 클리핑된 윈도우 내에서의 후방 주의 범위를 측정합니다; 2) 미래 주의 영향(Future Attention Influence), 이는 토큰의 전역적 중요성을 후속 토큰으로부터 받는 평균 주의로 정량화합니다. 이러한 신호들은 모델이 먼저 장거리 문맥 참조를 수행하여 도입 토큰을 생성하고, 이어서 또는 동시에 후속 추론을 조직화하는 의미적 앵커 토큰이 나타나는 반복적인 사전 계획 및 앵커 메커니즘을 드러냅니다. 이러한 통찰을 활용하여, 우리는 핵심 노드(사전 계획 토큰, 앵커 토큰 및 이들의 시간적 결합)에 대한 표적 크레딧 할당을 동적으로 수행하는 세 가지 새로운 RL 전략을 소개하고, 다양한 추론 작업에서 일관된 성능 향상을 보여줍니다. 최적화를 모델의 내재적 추론 리듬에 맞춤으로써, 불투명한 최적화를 실행 가능한 구조 인식 프로세스로 전환하고자 하며, 이를 통해 LLM 추론의 더 투명하고 효과적인 최적화를 위한 잠재적 단계를 제공하고자 합니다.
English
The reasoning pattern of Large language models (LLMs) remains opaque, and
Reinforcement learning (RL) typically applies uniform credit across an entire
generation, blurring the distinction between pivotal and routine steps. This
work positions attention as a privileged substrate that renders the internal
logic of LLMs legible, not merely as a byproduct of computation, but as a
mechanistic blueprint of reasoning itself. We first distinguish attention heads
between locally and globally focused information processing and reveal that
locally focused heads produce a sawtooth pattern near the diagonal indicating
phrasal chunks, while globally focused heads expose tokens that exert broad
downstream influence over future tokens. We formalize these with two metrics:
1) Windowed Average Attention Distance, which measures the extent of backward
attention within a clipped window; 2) Future Attention Influence, which
quantifies a token's global importance as the average attention it receives
from subsequent tokens. Taken together, these signals reveal a recurring
preplan-and-anchor mechanism, where the model first performs a long-range
contextual reference to generate an introductory token, which is immediately
followed by or coincides with a semantic anchor token that organizes subsequent
reasoning. Leveraging these insights, we introduce three novel RL strategies
that dynamically perform targeted credit assignment to critical nodes (preplan
tokens, anchor tokens, and their temporal coupling) and show consistent
performance gains across various reasoning tasks. By aligning optimization with
the model's intrinsic reasoning rhythm, we aim to transform opaque optimization
into an actionable structure-aware process, hoping to offer a potential step
toward more transparent and effective optimization of LLM reasoning.