Hoe stroomt redeneren? Het traceren van aandacht-geïnduceerde informatiestroom voor gerichte RL in LLMs

Samenvatting

Krediettoewijzing op token-niveau blijft een belangrijk obstakel voor reinforcement learning (RL) in grote taalmodellen (LLMs), waarbij RL-methoden doorgaans alle tokens gelijk behandelen en geen onderscheid maken tussen beslissende redeneerstappen en routinematige opmaak of vloeiende opvulling. Recente pogingen maken gebruik van modelinterne signalen om fijnmaziger krediet toe te wijzen, maar dit zijn vaak puntsgewijze heuristieken die de globale structuur van informatiepropagatie negeren. Wij stellen FlowTracer voor, een RL-framework dat antwoordgerichte redeneerstroom traceert op een door aandacht geïnduceerde gerichte acyclische graaf waarin knopen overeenkomen met tokens en randcapaciteiten afkomstig zijn van geaggregeerde aandachtsgewichten, en dat tokenkrediet afleidt uit deze globale structuur. De randcapaciteiten worden herwogen om alleen de invloed te behouden die het antwoordgebied kan bereiken, terwijl lokaal stroombehoud wordt afgedwongen zodat tussenliggende tokens geen effectieve massa verliezen of winnen als gevolg van padlengte of irrelevante vertakkingen. Op deze graaf extraheert FlowTracer een informatie-stroomruggengraat die de vraag met het antwoord verbindt en scoort tokens op basis van stroomdoorvoer, waardoor invloedrijke hubs en aggregatiecontrolepunten worden onthuld die afhankelijkheden op lange afstand mediëren. Deze afgeleide belangrijkheden worden gebruikt om beloningen op token-niveau vorm te geven, waardoor leersignalen zich nauwkeurig kunnen richten op de tokens die informatie naar (of weg van) correcte antwoorden leiden, en consistente prestatieverbeteringen opleveren over een reeks redeneertaken.

English

Token-level credit assignment remains a key obstacle for reinforcement learning (RL) in large language models (LLMs), where RL recipes typically treat all tokens equally, failing to distinguish decisive reasoning steps from routine formatting or fluent filler. Recent attempts leverage model-internal signals to assign finer-grained credit, but these are often point-wise heuristics that ignore the global structure of information propagation. We propose FlowTracer, an RL framework that traces answer-targeted reasoning flow on an attention-induced directed acyclic graph in which nodes correspond to tokens and edge capacities come from aggregated attention weights and derives token credit from this global structure. The edge capacities are reweighted to retain only the influence that can reach the answer region, while enforcing local flow conservation so intermediate tokens neither lose nor gain effective mass due to path length or irrelevant branches. On this graph, FlowTracer extracts an information-flow backbone connecting the question to the answer and scores tokens by flow throughput, revealing high-impact hubs and aggregation checkpoints that mediate long-range dependencies. These derived importances are used to shape token-level rewards, enabling learning signals to focus precisely on the tokens that route information toward (or away from) correct answers and delivering consistent performance gains across a range of reasoning tasks.