A Atenção Ilumina o Raciocínio de LLMs: O Ritmo de Pré-planejamento e Ancoragem Permite a Otimização de Políticas de Granularidade Fina
Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization
October 15, 2025
Autores: Yang Li, Zhichen Dong, Yuhan Sun, Weixun Wang, Shaopan Xiong, Yijia Luo, Jiashun Liu, Han Lu, Jiamang Wang, Wenbo Su, Bo Zheng, Junchi Yan
cs.AI
Resumo
O padrão de raciocínio dos modelos de linguagem de grande escala (LLMs) permanece opaco, e o aprendizado por reforço (RL) normalmente aplica crédito uniforme em toda uma geração, obscurecendo a distinção entre passos cruciais e rotineiros. Este trabalho posiciona a atenção como um substrato privilegiado que torna a lógica interna dos LLMs legível, não apenas como um subproduto da computação, mas como um projeto mecanicista do próprio raciocínio. Primeiro, distinguimos os cabeçalhos de atenção entre processamento de informações focado localmente e globalmente, e revelamos que os cabeçalhos focados localmente produzem um padrão de dente de serra próximo à diagonal, indicando segmentos frasais, enquanto os cabeçalhos focados globalmente expõem tokens que exercem uma ampla influência descendente sobre tokens futuros. Formalizamos isso com duas métricas: 1) Distância Média de Atenção em Janela, que mede a extensão da atenção para trás dentro de uma janela delimitada; 2) Influência de Atenção Futura, que quantifica a importância global de um token como a atenção média que ele recebe de tokens subsequentes. Juntas, essas métricas revelam um mecanismo recorrente de pré-planejamento e ancoragem, onde o modelo primeiro realiza uma referência contextual de longo alcance para gerar um token introdutório, que é imediatamente seguido ou coincide com um token âncora semântico que organiza o raciocínio subsequente. Aproveitando esses insights, introduzimos três novas estratégias de RL que realizam dinamicamente a atribuição de crédito direcionada a nós críticos (tokens de pré-planejamento, tokens âncora e seu acoplamento temporal) e mostram ganhos consistentes de desempenho em várias tarefas de raciocínio. Ao alinhar a otimização com o ritmo intrínseco de raciocínio do modelo, visamos transformar a otimização opaca em um processo acionável e consciente da estrutura, esperando oferecer um passo potencial em direção a uma otimização mais transparente e eficaz do raciocínio dos LLMs.
English
The reasoning pattern of Large language models (LLMs) remains opaque, and
Reinforcement learning (RL) typically applies uniform credit across an entire
generation, blurring the distinction between pivotal and routine steps. This
work positions attention as a privileged substrate that renders the internal
logic of LLMs legible, not merely as a byproduct of computation, but as a
mechanistic blueprint of reasoning itself. We first distinguish attention heads
between locally and globally focused information processing and reveal that
locally focused heads produce a sawtooth pattern near the diagonal indicating
phrasal chunks, while globally focused heads expose tokens that exert broad
downstream influence over future tokens. We formalize these with two metrics:
1) Windowed Average Attention Distance, which measures the extent of backward
attention within a clipped window; 2) Future Attention Influence, which
quantifies a token's global importance as the average attention it receives
from subsequent tokens. Taken together, these signals reveal a recurring
preplan-and-anchor mechanism, where the model first performs a long-range
contextual reference to generate an introductory token, which is immediately
followed by or coincides with a semantic anchor token that organizes subsequent
reasoning. Leveraging these insights, we introduce three novel RL strategies
that dynamically perform targeted credit assignment to critical nodes (preplan
tokens, anchor tokens, and their temporal coupling) and show consistent
performance gains across various reasoning tasks. By aligning optimization with
the model's intrinsic reasoning rhythm, we aim to transform opaque optimization
into an actionable structure-aware process, hoping to offer a potential step
toward more transparent and effective optimization of LLM reasoning.