L'attention illumine le raisonnement des LLM : Le rythme de préplanification et d'ancrage permet une optimisation fine des politiques

papers.abstract

Le schéma de raisonnement des modèles de langage à grande échelle (LLMs) reste opaque, et l'apprentissage par renforcement (RL) applique généralement un crédit uniforme à l'ensemble d'une génération, estompant la distinction entre les étapes cruciales et routinières. Ce travail positionne l'attention comme un substrat privilégié qui rend la logique interne des LLMs lisible, non pas simplement comme un sous-produit du calcul, mais comme un plan mécanistique du raisonnement lui-même. Nous distinguons d'abord les têtes d'attention entre le traitement d'information localement et globalement focalisé, et révélons que les têtes localement focalisées produisent un motif en dents de scie près de la diagonale indiquant des segments phrastiques, tandis que les têtes globalement focalisées exposent les tokens qui exercent une influence descendante étendue sur les tokens futurs. Nous formalisons cela avec deux métriques : 1) la Distance Moyenne d'Attention Fenêtrée, qui mesure l'étendue de l'attention rétrospective dans une fenêtre tronquée ; 2) l'Influence Future de l'Attention, qui quantifie l'importance globale d'un token comme l'attention moyenne qu'il reçoit des tokens ultérieurs. Ensemble, ces signaux révèlent un mécanisme récurrent de pré-planification et d'ancrage, où le modèle effectue d'abord une référence contextuelle à long terme pour générer un token introductif, qui est immédiatement suivi ou coïncide avec un token d'ancrage sémantique qui organise le raisonnement subséquent. En exploitant ces insights, nous introduisons trois nouvelles stratégies de RL qui effectuent dynamiquement une attribution ciblée de crédit aux nœuds critiques (tokens de pré-planification, tokens d'ancrage et leur couplage temporel) et montrent des gains de performance constants à travers diverses tâches de raisonnement. En alignant l'optimisation sur le rythme de raisonnement intrinsèque du modèle, nous visons à transformer une optimisation opaque en un processus actionnable et conscient de la structure, espérant offrir une étape potentielle vers une optimisation plus transparente et efficace du raisonnement des LLMs.

English

The reasoning pattern of Large language models (LLMs) remains opaque, and Reinforcement learning (RL) typically applies uniform credit across an entire generation, blurring the distinction between pivotal and routine steps. This work positions attention as a privileged substrate that renders the internal logic of LLMs legible, not merely as a byproduct of computation, but as a mechanistic blueprint of reasoning itself. We first distinguish attention heads between locally and globally focused information processing and reveal that locally focused heads produce a sawtooth pattern near the diagonal indicating phrasal chunks, while globally focused heads expose tokens that exert broad downstream influence over future tokens. We formalize these with two metrics: 1) Windowed Average Attention Distance, which measures the extent of backward attention within a clipped window; 2) Future Attention Influence, which quantifies a token's global importance as the average attention it receives from subsequent tokens. Taken together, these signals reveal a recurring preplan-and-anchor mechanism, where the model first performs a long-range contextual reference to generate an introductory token, which is immediately followed by or coincides with a semantic anchor token that organizes subsequent reasoning. Leveraging these insights, we introduce three novel RL strategies that dynamically perform targeted credit assignment to critical nodes (preplan tokens, anchor tokens, and their temporal coupling) and show consistent performance gains across various reasoning tasks. By aligning optimization with the model's intrinsic reasoning rhythm, we aim to transform opaque optimization into an actionable structure-aware process, hoping to offer a potential step toward more transparent and effective optimization of LLM reasoning.

L'attention illumine le raisonnement des LLM : Le rythme de préplanification et d'ancrage permet une optimisation fine des politiques

Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization

papers.abstract

Support