ChatPaper.aiChatPaper

L'attenzione illumina il ragionamento degli LLM: il ritmo di pre-pianificazione e ancoraggio abilita l'ottimizzazione granulare delle politiche

Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization

October 15, 2025
Autori: Yang Li, Zhichen Dong, Yuhan Sun, Weixun Wang, Shaopan Xiong, Yijia Luo, Jiashun Liu, Han Lu, Jiamang Wang, Wenbo Su, Bo Zheng, Junchi Yan
cs.AI

Abstract

Il modello di ragionamento dei Large Language Models (LLM) rimane opaco, e il Reinforcement Learning (RL) applica tipicamente un credito uniforme a un'intera generazione, sfumando la distinzione tra passaggi cruciali e routine. Questo lavoro posiziona l'attenzione come un substrato privilegiato che rende leggibile la logica interna dei LLM, non solo come un sottoprodotto del calcolo, ma come una mappa meccanicistica del ragionamento stesso. In primo luogo, distinguiamo le testine di attenzione tra elaborazione delle informazioni focalizzata localmente e globalmente, e riveliamo che le testine focalizzate localmente producono un modello a dente di sega vicino alla diagonale che indica blocchi frasali, mentre quelle focalizzate globalmente espongono token che esercitano un'influenza ampia e a valle sui token futuri. Formalizziamo questi concetti con due metriche: 1) la Windowed Average Attention Distance, che misura l'estensione dell'attenzione all'indietro all'interno di una finestra ritagliata; 2) la Future Attention Influence, che quantifica l'importanza globale di un token come l'attenzione media che riceve dai token successivi. Insieme, questi segnali rivelano un meccanismo ricorrente di pre-pianificazione e ancoraggio, in cui il modello esegue prima un riferimento contestuale a lungo raggio per generare un token introduttivo, che è immediatamente seguito o coincide con un token ancoraggio semantico che organizza il ragionamento successivo. Sfruttando queste intuizioni, introduciamo tre nuove strategie di RL che eseguono dinamicamente l'assegnazione mirata del credito a nodi critici (token di pre-pianificazione, token di ancoraggio e il loro accoppiamento temporale) e mostrano guadagni di prestazioni consistenti in vari compiti di ragionamento. Allineando l'ottimizzazione con il ritmo intrinseco del ragionamento del modello, miriamo a trasformare un'ottimizzazione opaca in un processo azionabile e consapevole della struttura, sperando di offrire un potenziale passo verso un'ottimizzazione più trasparente ed efficace del ragionamento dei LLM.
English
The reasoning pattern of Large language models (LLMs) remains opaque, and Reinforcement learning (RL) typically applies uniform credit across an entire generation, blurring the distinction between pivotal and routine steps. This work positions attention as a privileged substrate that renders the internal logic of LLMs legible, not merely as a byproduct of computation, but as a mechanistic blueprint of reasoning itself. We first distinguish attention heads between locally and globally focused information processing and reveal that locally focused heads produce a sawtooth pattern near the diagonal indicating phrasal chunks, while globally focused heads expose tokens that exert broad downstream influence over future tokens. We formalize these with two metrics: 1) Windowed Average Attention Distance, which measures the extent of backward attention within a clipped window; 2) Future Attention Influence, which quantifies a token's global importance as the average attention it receives from subsequent tokens. Taken together, these signals reveal a recurring preplan-and-anchor mechanism, where the model first performs a long-range contextual reference to generate an introductory token, which is immediately followed by or coincides with a semantic anchor token that organizes subsequent reasoning. Leveraging these insights, we introduce three novel RL strategies that dynamically perform targeted credit assignment to critical nodes (preplan tokens, anchor tokens, and their temporal coupling) and show consistent performance gains across various reasoning tasks. By aligning optimization with the model's intrinsic reasoning rhythm, we aim to transform opaque optimization into an actionable structure-aware process, hoping to offer a potential step toward more transparent and effective optimization of LLM reasoning.
PDF542October 16, 2025