Aufmerksamkeit beleuchtet das LLM-Denken: Der Preplan-and-Anchor-Rhythmus ermöglicht fein abgestimmte Politikoptimierung
Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization
October 15, 2025
papers.authors: Yang Li, Zhichen Dong, Yuhan Sun, Weixun Wang, Shaopan Xiong, Yijia Luo, Jiashun Liu, Han Lu, Jiamang Wang, Wenbo Su, Bo Zheng, Junchi Yan
cs.AI
papers.abstract
Das Denkmuster von Large Language Models (LLMs) bleibt undurchsichtig, und Reinforcement Learning (RL) wendet typischerweise einheitliche Bewertung über eine gesamte Generation hinweg an, wodurch die Unterscheidung zwischen entscheidenden und routinemäßigen Schritten verwischt wird. Diese Arbeit positioniert Aufmerksamkeit als privilegiertes Substrat, das die interne Logik von LLMs verständlich macht, nicht nur als Nebenprodukt der Berechnung, sondern als mechanistische Blaupause des Denkens selbst. Zunächst unterscheiden wir zwischen lokal und global fokussierten Aufmerksamkeitsköpfen in der Informationsverarbeitung und zeigen, dass lokal fokussierte Köpfe ein Sägezahnmuster nahe der Diagonalen erzeugen, das phrasale Chunks anzeigt, während global fokussierte Köpfe Tokens offenlegen, die einen breiten nachgelagerten Einfluss auf zukünftige Tokens ausüben. Wir formalisieren dies mit zwei Metriken: 1) Windowed Average Attention Distance, die das Ausmaß der rückwärtsgerichteten Aufmerksamkeit innerhalb eines begrenzten Fensters misst; 2) Future Attention Influence, die die globale Bedeutung eines Tokens als die durchschnittliche Aufmerksamkeit quantifiziert, die es von nachfolgenden Tokens erhält. Zusammengenommen offenbaren diese Signale einen wiederkehrenden Mechanismus des Vorplanens und Verankerns, bei dem das Modell zunächst eine langreichweitige kontextuelle Referenz durchführt, um ein einleitendes Token zu generieren, dem unmittelbar oder gleichzeitig ein semantisches Anker-Token folgt, das das nachfolgende Denken organisiert. Indem wir diese Erkenntnisse nutzen, führen wir drei neuartige RL-Strategien ein, die gezielte Bewertungszuweisungen an kritische Knoten (Vorplan-Tokens, Anker-Tokens und ihre zeitliche Kopplung) dynamisch durchführen und zeigen konsistente Leistungssteigerungen über verschiedene Denkaufgaben hinweg. Durch die Ausrichtung der Optimierung an der intrinsischen Denkrhythmik des Modells streben wir an, undurchsichtige Optimierung in einen handlungsorientierten, strukturbewussten Prozess zu transformieren, in der Hoffnung, einen potenziellen Schritt hin zu einer transparenteren und effektiveren Optimierung des LLM-Denkens zu bieten.
English
The reasoning pattern of Large language models (LLMs) remains opaque, and
Reinforcement learning (RL) typically applies uniform credit across an entire
generation, blurring the distinction between pivotal and routine steps. This
work positions attention as a privileged substrate that renders the internal
logic of LLMs legible, not merely as a byproduct of computation, but as a
mechanistic blueprint of reasoning itself. We first distinguish attention heads
between locally and globally focused information processing and reveal that
locally focused heads produce a sawtooth pattern near the diagonal indicating
phrasal chunks, while globally focused heads expose tokens that exert broad
downstream influence over future tokens. We formalize these with two metrics:
1) Windowed Average Attention Distance, which measures the extent of backward
attention within a clipped window; 2) Future Attention Influence, which
quantifies a token's global importance as the average attention it receives
from subsequent tokens. Taken together, these signals reveal a recurring
preplan-and-anchor mechanism, where the model first performs a long-range
contextual reference to generate an introductory token, which is immediately
followed by or coincides with a semantic anchor token that organizes subsequent
reasoning. Leveraging these insights, we introduce three novel RL strategies
that dynamically perform targeted credit assignment to critical nodes (preplan
tokens, anchor tokens, and their temporal coupling) and show consistent
performance gains across various reasoning tasks. By aligning optimization with
the model's intrinsic reasoning rhythm, we aim to transform opaque optimization
into an actionable structure-aware process, hoping to offer a potential step
toward more transparent and effective optimization of LLM reasoning.