推論の流れはどのように機能するのか?—LLMにおけるターゲットRLのための注意誘発性情報フローの追跡
How Does Reasoning Flow? Tracing Attention-Induced Information Flow for Targeted RL in LLMs
June 9, 2026
著者: Zhichen Dong, Yang Li, Yuhan Sun, Weixun Wang, Yijia Luo, Zinian Peng, Taiheng Ye, Chao Yang, Wenbo Su, Yu Cheng, Bo Zheng, Junchi Yan
cs.AI
要旨
トークンレベルのクレジット割り当ては、大規模言語モデル(LLM)における強化学習(RL)の主要な障害であり続けている。RLの手法は通常、すべてのトークンを同等に扱い、決定的な推論ステップとルーチン的なフォーマットや流暢なフィラーの区別ができていない。
最近の試みでは、モデル内部の信号を利用してより細かい粒度のクレジットを割り当てようとしているが、これらは多くの場合、情報伝播の大域的な構造を無視したポイント単位のヒューリスティックスである。
我々はFlowTracerを提案する。これは、注意に基づく有向非循環グラフ上で回答を対象とした推論フローを追跡するRLフレームワークである。このグラフではノードがトークンに対応し、エッジ容量は集約された注意重みから得られ、この大域的な構造からトークンのクレジットを導出する。
エッジ容量は再重み付けされ、回答領域に到達できる影響のみを保持し、局所的なフロー保存を強制することで、中間トークンが経路長や無関係な枝によって有効質量を失ったり増やしたりしないようにする。
このグラフ上でFlowTracerは、質問と回答を結ぶ情報フローのバックボーンを抽出し、フロースループットによってトークンをスコアリングする。これにより、長距離依存関係を仲介する高影響のハブや集約チェックポイントが明らかになる。
これらの導出された重要度はトークンレベルの報酬を形成するために使用され、学習信号が正解に向けて(または正解から遠ざける)情報をルーティングするトークンに正確に焦点を当てることを可能にし、様々な推論タスクで一貫した性能向上をもたらす。
English
Token-level credit assignment remains a key obstacle for reinforcement learning (RL) in large language models (LLMs), where RL recipes typically treat all tokens equally, failing to distinguish decisive reasoning steps from routine formatting or fluent filler. Recent attempts leverage model-internal signals to assign finer-grained credit, but these are often point-wise heuristics that ignore the global structure of information propagation. We propose FlowTracer, an RL framework that traces answer-targeted reasoning flow on an attention-induced directed acyclic graph in which nodes correspond to tokens and edge capacities come from aggregated attention weights and derives token credit from this global structure. The edge capacities are reweighted to retain only the influence that can reach the answer region, while enforcing local flow conservation so intermediate tokens neither lose nor gain effective mass due to path length or irrelevant branches. On this graph, FlowTracer extracts an information-flow backbone connecting the question to the answer and scores tokens by flow throughput, revealing high-impact hubs and aggregation checkpoints that mediate long-range dependencies. These derived importances are used to shape token-level rewards, enabling learning signals to focus precisely on the tokens that route information toward (or away from) correct answers and delivering consistent performance gains across a range of reasoning tasks.