La atención ilumina el razonamiento de los LLM: El ritmo de preplanificación y anclaje permite una optimización de políticas de grano fino.
Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization
October 15, 2025
Autores: Yang Li, Zhichen Dong, Yuhan Sun, Weixun Wang, Shaopan Xiong, Yijia Luo, Jiashun Liu, Han Lu, Jiamang Wang, Wenbo Su, Bo Zheng, Junchi Yan
cs.AI
Resumen
El patrón de razonamiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) sigue siendo opaco, y el aprendizaje por refuerzo (RL, por sus siglas en inglés) suele aplicar un crédito uniforme a toda una generación, difuminando la distinción entre pasos cruciales y rutinarios. Este trabajo posiciona la atención como un sustrato privilegiado que hace legible la lógica interna de los LLMs, no simplemente como un subproducto de la computación, sino como un plano mecanístico del razonamiento mismo. Primero distinguimos las cabezas de atención entre el procesamiento de información local y global, y revelamos que las cabezas localmente enfocadas producen un patrón de diente de sierra cerca de la diagonal que indica fragmentos de frases, mientras que las cabezas globalmente enfocadas exponen tokens que ejercen una amplia influencia descendente sobre tokens futuros. Formalizamos esto con dos métricas: 1) la Distancia Promedio de Atención en Ventana, que mide el alcance de la atención hacia atrás dentro de una ventana recortada; 2) la Influencia de Atención Futura, que cuantifica la importancia global de un token como la atención promedio que recibe de tokens posteriores. En conjunto, estas señales revelan un mecanismo recurrente de preplanificación y anclaje, donde el modelo primero realiza una referencia contextual de largo alcance para generar un token introductorio, que es inmediatamente seguido o coincide con un token ancla semántico que organiza el razonamiento subsiguiente. Aprovechando estas ideas, introducimos tres estrategias novedosas de RL que realizan dinámicamente una asignación de crédito dirigida a nodos críticos (tokens de preplanificación, tokens ancla y su acoplamiento temporal) y mostramos mejoras consistentes en el rendimiento en diversas tareas de razonamiento. Al alinear la optimización con el ritmo intrínseco de razonamiento del modelo, buscamos transformar la optimización opaca en un proceso accionable consciente de la estructura, con la esperanza de ofrecer un paso potencial hacia una optimización más transparente y efectiva del razonamiento de los LLMs.
English
The reasoning pattern of Large language models (LLMs) remains opaque, and
Reinforcement learning (RL) typically applies uniform credit across an entire
generation, blurring the distinction between pivotal and routine steps. This
work positions attention as a privileged substrate that renders the internal
logic of LLMs legible, not merely as a byproduct of computation, but as a
mechanistic blueprint of reasoning itself. We first distinguish attention heads
between locally and globally focused information processing and reveal that
locally focused heads produce a sawtooth pattern near the diagonal indicating
phrasal chunks, while globally focused heads expose tokens that exert broad
downstream influence over future tokens. We formalize these with two metrics:
1) Windowed Average Attention Distance, which measures the extent of backward
attention within a clipped window; 2) Future Attention Influence, which
quantifies a token's global importance as the average attention it receives
from subsequent tokens. Taken together, these signals reveal a recurring
preplan-and-anchor mechanism, where the model first performs a long-range
contextual reference to generate an introductory token, which is immediately
followed by or coincides with a semantic anchor token that organizes subsequent
reasoning. Leveraging these insights, we introduce three novel RL strategies
that dynamically perform targeted credit assignment to critical nodes (preplan
tokens, anchor tokens, and their temporal coupling) and show consistent
performance gains across various reasoning tasks. By aligning optimization with
the model's intrinsic reasoning rhythm, we aim to transform opaque optimization
into an actionable structure-aware process, hoping to offer a potential step
toward more transparent and effective optimization of LLM reasoning.