Aandacht verlicht LLM-redenering: Het preplan-en-ankerritme maakt fijnmazige beleidsoptimalisatie mogelijk

Samenvatting

Het redeneerpatroon van grote taalmodellen (LLMs) blijft ondoorzichtig, en versterkend leren (RL) past doorgaans uniforme credits toe over een hele generatie, waardoor het onderscheid tussen cruciale en routine stappen vervaagt. Dit werk positioneert aandacht als een geprivilegieerd substraat dat de interne logica van LLMs begrijpelijk maakt, niet slechts als een bijproduct van berekening, maar als een mechanistische blauwdruk van het redeneren zelf. We onderscheiden eerst aandachtskoppen tussen lokaal en globaal gerichte informatieverwerking en onthullen dat lokaal gerichte koppen een zaagtandpatroon nabij de diagonaal produceren dat wijst op frasele segmenten, terwijl globaal gerichte koppen tokens blootleggen die een brede downstream invloed uitoefenen op toekomstige tokens. We formaliseren deze met twee metrieken: 1) Gemiddelde Aandachtsafstand in een Venster, die de omvang van achterwaartse aandacht binnen een afgekapt venster meet; 2) Toekomstige Aandachtsinvloed, die het globale belang van een token kwantificeert als de gemiddelde aandacht die het ontvangt van latere tokens. Samen onthullen deze signalen een terugkerend mechanisme van voorbereiden-en-verankeren, waarbij het model eerst een langeafstandscontextuele referentie uitvoert om een inleidend token te genereren, dat onmiddellijk wordt gevolgd of samenvalt met een semantisch ankerpunt-token dat het vervolgredeneren organiseert. Gebruikmakend van deze inzichten introduceren we drie nieuwe RL-strategieën die dynamisch gerichte credits toekennen aan kritieke punten (voorbereidende tokens, ankerpunt-tokens en hun temporele koppeling) en laten consistente prestatieverbeteringen zien over verschillende redeneertaken. Door optimalisatie af te stemmen op het intrinsieke redeneerritme van het model, streven we ernaar om ondoorzichtige optimalisatie te transformeren in een actiegericht, structuurbewust proces, in de hoop een mogelijke stap te bieden naar meer transparante en effectieve optimalisatie van LLM-redenering.

English

The reasoning pattern of Large language models (LLMs) remains opaque, and Reinforcement learning (RL) typically applies uniform credit across an entire generation, blurring the distinction between pivotal and routine steps. This work positions attention as a privileged substrate that renders the internal logic of LLMs legible, not merely as a byproduct of computation, but as a mechanistic blueprint of reasoning itself. We first distinguish attention heads between locally and globally focused information processing and reveal that locally focused heads produce a sawtooth pattern near the diagonal indicating phrasal chunks, while globally focused heads expose tokens that exert broad downstream influence over future tokens. We formalize these with two metrics: 1) Windowed Average Attention Distance, which measures the extent of backward attention within a clipped window; 2) Future Attention Influence, which quantifies a token's global importance as the average attention it receives from subsequent tokens. Taken together, these signals reveal a recurring preplan-and-anchor mechanism, where the model first performs a long-range contextual reference to generate an introductory token, which is immediately followed by or coincides with a semantic anchor token that organizes subsequent reasoning. Leveraging these insights, we introduce three novel RL strategies that dynamically perform targeted credit assignment to critical nodes (preplan tokens, anchor tokens, and their temporal coupling) and show consistent performance gains across various reasoning tasks. By aligning optimization with the model's intrinsic reasoning rhythm, we aim to transform opaque optimization into an actionable structure-aware process, hoping to offer a potential step toward more transparent and effective optimization of LLM reasoning.

Aandacht verlicht LLM-redenering: Het preplan-en-ankerritme maakt fijnmazige beleidsoptimalisatie mogelijk

Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization

Samenvatting

Support