推論からエージェント性へ:大規模言語モデルにおける強化学習の信用割り当て
From Reasoning to Agentic: Credit Assignment in Reinforcement Learning for Large Language Models
April 13, 2026
著者: Chenchen Zhang
cs.AI
要旨
大規模言語モデル(LLM)における強化学習(RL)では、疎な結果レベルの報酬への依存が強まっているが、長い軌跡の中のどの行動が結果を引き起こしたかを特定することは依然として困難である。この信用割り当て(CA)問題は、2つの領域で顕在化する。1つは推論RLであり、単一の連鎖思考生成(500~30K+トークン)内のトークンとステップにわたって信用を分配する必要がある。もう1つはエージェント的RLであり、多ターンの環境相互作用によって確率的遷移、部分観測可能性、100+ターン(100K~1Mトークン)という時間的広がりが導入され、エピソードレベルの信用は次第に情報量が乏しくなる。
本稿では、2024年から2026年初頭にかけて発表された47のCA手法(中核41、関連技術6)を調査し、割り当て粒度(トークン、セグメント、ステップ、ターン、マルチエージェント)と方法論(モンテカルロ法、時間的差分法、モデルベース、ゲーム理論的、情報理論的)による二次元分類体系に整理する。調査自体に加えて、以下の3つの再利用可能なリソースを提供する。(1) 分類ラベル、ベースラインファミリー、エビデンスレベルを含む構造化された機械可読な論文目録。(2) 将来のCA論文のための報告チェックリスト。これは検証済みの文献に対して体系的方針のギャップを特定する。(3) タスクファミリー、メタデータ要件、制御分岐タスクを備えたベンチマークプロトコル仕様、および手法選択決定木を付随させる。
我々の総合分析は、推論からエジエント的RLへの移行が信用割り当ての状況を複雑化し、再形成していることを示唆する。すなわち、推論CAはプロセス報酬モデルと批評家不要のグループ比較を中心に成熟しつつある一方で、エージェント的CAは、後ろ向き反事実分析、特権的非対称批評家、ターンレベルのMDP再定式化といった、推論RLには直接の前例がない真に新しいアプローチを推進している。
English
Reinforcement learning (RL) for large language models (LLMs) increasingly relies on sparse, outcome-level rewards -- yet determining which actions within a long trajectory caused the outcome remains difficult. This credit assignment (CA) problem manifests in two regimes: reasoning RL, where credit must be distributed across tokens and steps within a single chain-of-thought generation (500--30K+ tokens); and agentic RL, where multi-turn environment interaction introduces stochastic transitions, partial observability, and horizons of 100+ turns (100K--1M tokens), making episode-level credit increasingly uninformative.
We survey 47 CA methods (41 core, 6 adjacent enablers) published between 2024 and early 2026, organizing them in a two-dimensional taxonomy by assignment granularity (token, segment, step, turn, multi-agent) and methodology (Monte Carlo, temporal difference, model-based, game-theoretic, information-theoretic). Beyond the survey itself, we contribute three reusable resources: (1) a structured, machine-readable paper inventory with taxonomy labels, baseline families, and evidence levels; (2) a reporting checklist for future CA papers, validated against the reviewed literature to identify systematic methodological gaps; and (3) a benchmark protocol specification with task families, metadata requirements, and controlled bifurcation tasks, accompanied by a method selection decision tree.
Our synthesis suggests that the shift from reasoning to agentic RL complicates and reshapes the credit assignment landscape: reasoning CA is maturing around process reward models and critic-free group comparison, while agentic CA is driving genuinely new approaches -- hindsight counterfactual analysis, privileged asymmetric critics, and turn-level MDP reformulations -- that have no direct precedent in reasoning RL.