Wie verläuft das Denken? Verfolgung des aufmerksamkeitsinduzierten Informationsflusses für gezieltes RL in LLMs

Zusammenfassung

Die Zuweisung von Verantwortlichkeiten auf Token-Ebene bleibt ein zentrales Hindernis für Reinforcement Learning (RL) in großen Sprachmodellen (Large Language Models, LLMs), da RL-Methoden üblicherweise alle Token gleich behandeln und nicht zwischen entscheidenden Denkschritten, routinemäßiger Formatierung oder fließenden Fülltexten unterscheiden. Neuere Ansätze nutzen modellinterne Signale, um eine feinere Kreditzuweisung zu erreichen, doch sind dies oft punktuelle Heuristiken, die die globale Struktur der Informationsausbreitung ignorieren. Wir schlagen FlowTracer vor, ein RL-Framework, das einen antwortgerichteten Denkfluss auf einem aufmerksamkeitsinduzierten gerichteten azyklischen Graphen verfolgt – Knoten entsprechen Tokens, Kantenkapazitäten stammen aus aggregierten Aufmerksamkeitsgewichten – und daraus einen Token-Kredit auf Basis dieser globalen Struktur ableitet. Die Kantenkapazitäten werden neu gewichtet, sodass nur der Einfluss erhalten bleibt, der den Antwortbereich erreichen kann, während lokale Flusserhaltung erzwungen wird, sodass Zwischentoken durch Pfadlängen oder irrelevante Verzweigungen weder effektive Masse verlieren noch gewinnen. Auf diesem Graphen extrahiert FlowTracer ein Informationsfluss-Backbone, das Frage und Antwort verbindet, und bewertet Tokens anhand des Flussdurchsatzes, wodurch stark einflussreiche Hubs und Aggregationskontrollpunkte sichtbar werden, die langreichweitige Abhängigkeiten vermitteln. Diese abgeleiteten Bedeutungen werden genutzt, um Belohnungen auf Token-Ebene zu formen, sodass Lernsignale präzise auf die Tokens fokussieren können, die Informationen zu (oder von) korrekten Antworten lenken, und erzielen konsistente Leistungssteigerungen über eine Reihe von Denkaufgaben hinweg.

English

Token-level credit assignment remains a key obstacle for reinforcement learning (RL) in large language models (LLMs), where RL recipes typically treat all tokens equally, failing to distinguish decisive reasoning steps from routine formatting or fluent filler. Recent attempts leverage model-internal signals to assign finer-grained credit, but these are often point-wise heuristics that ignore the global structure of information propagation. We propose FlowTracer, an RL framework that traces answer-targeted reasoning flow on an attention-induced directed acyclic graph in which nodes correspond to tokens and edge capacities come from aggregated attention weights and derives token credit from this global structure. The edge capacities are reweighted to retain only the influence that can reach the answer region, while enforcing local flow conservation so intermediate tokens neither lose nor gain effective mass due to path length or irrelevant branches. On this graph, FlowTracer extracts an information-flow backbone connecting the question to the answer and scores tokens by flow throughput, revealing high-impact hubs and aggregation checkpoints that mediate long-range dependencies. These derived importances are used to shape token-level rewards, enabling learning signals to focus precisely on the tokens that route information toward (or away from) correct answers and delivering consistent performance gains across a range of reasoning tasks.