Aandacht verlicht LLM-redenering: Het preplan-en-ankerritme maakt fijnmazige beleidsoptimalisatie mogelijk
Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization
October 15, 2025
Auteurs: Yang Li, Zhichen Dong, Yuhan Sun, Weixun Wang, Shaopan Xiong, Yijia Luo, Jiashun Liu, Han Lu, Jiamang Wang, Wenbo Su, Bo Zheng, Junchi Yan
cs.AI
Samenvatting
Het redeneerpatroon van grote taalmodellen (LLMs) blijft ondoorzichtig, en
versterkend leren (RL) past doorgaans uniforme credits toe over een hele
generatie, waardoor het onderscheid tussen cruciale en routine stappen vervaagt.
Dit werk positioneert aandacht als een geprivilegieerd substraat dat de interne
logica van LLMs begrijpelijk maakt, niet slechts als een bijproduct van
berekening, maar als een mechanistische blauwdruk van het redeneren zelf. We
onderscheiden eerst aandachtskoppen tussen lokaal en globaal gerichte
informatieverwerking en onthullen dat lokaal gerichte koppen een zaagtandpatroon
nabij de diagonaal produceren dat wijst op frasele segmenten, terwijl globaal
gerichte koppen tokens blootleggen die een brede downstream invloed uitoefenen
op toekomstige tokens. We formaliseren deze met twee metrieken:
1) Gemiddelde Aandachtsafstand in een Venster, die de omvang van achterwaartse
aandacht binnen een afgekapt venster meet; 2) Toekomstige Aandachtsinvloed, die
het globale belang van een token kwantificeert als de gemiddelde aandacht die
het ontvangt van latere tokens. Samen onthullen deze signalen een terugkerend
mechanisme van voorbereiden-en-verankeren, waarbij het model eerst een
langeafstandscontextuele referentie uitvoert om een inleidend token te
genereren, dat onmiddellijk wordt gevolgd of samenvalt met een semantisch
ankerpunt-token dat het vervolgredeneren organiseert. Gebruikmakend van deze
inzichten introduceren we drie nieuwe RL-strategieën die dynamisch gerichte
credits toekennen aan kritieke punten (voorbereidende tokens, ankerpunt-tokens
en hun temporele koppeling) en laten consistente prestatieverbeteringen zien
over verschillende redeneertaken. Door optimalisatie af te stemmen op het
intrinsieke redeneerritme van het model, streven we ernaar om ondoorzichtige
optimalisatie te transformeren in een actiegericht, structuurbewust proces, in
de hoop een mogelijke stap te bieden naar meer transparante en effectieve
optimalisatie van LLM-redenering.
English
The reasoning pattern of Large language models (LLMs) remains opaque, and
Reinforcement learning (RL) typically applies uniform credit across an entire
generation, blurring the distinction between pivotal and routine steps. This
work positions attention as a privileged substrate that renders the internal
logic of LLMs legible, not merely as a byproduct of computation, but as a
mechanistic blueprint of reasoning itself. We first distinguish attention heads
between locally and globally focused information processing and reveal that
locally focused heads produce a sawtooth pattern near the diagonal indicating
phrasal chunks, while globally focused heads expose tokens that exert broad
downstream influence over future tokens. We formalize these with two metrics:
1) Windowed Average Attention Distance, which measures the extent of backward
attention within a clipped window; 2) Future Attention Influence, which
quantifies a token's global importance as the average attention it receives
from subsequent tokens. Taken together, these signals reveal a recurring
preplan-and-anchor mechanism, where the model first performs a long-range
contextual reference to generate an introductory token, which is immediately
followed by or coincides with a semantic anchor token that organizes subsequent
reasoning. Leveraging these insights, we introduce three novel RL strategies
that dynamically perform targeted credit assignment to critical nodes (preplan
tokens, anchor tokens, and their temporal coupling) and show consistent
performance gains across various reasoning tasks. By aligning optimization with
the model's intrinsic reasoning rhythm, we aim to transform opaque optimization
into an actionable structure-aware process, hoping to offer a potential step
toward more transparent and effective optimization of LLM reasoning.