あなたの言語モデルはそれ自身の批評家である:アクターの内部状態からの価値推定による強化学習
Your Language Model is Its Own Critic: Reinforcement Learning with Value Estimation from Actor's Internal States
May 8, 2026
著者: Yunho Choi, Jongwon Lim, Woojin Ahn, Minjae Oh, Jeonghoon Shim, Yohan Jo
cs.AI
要旨
大規模推論モデル向けの検証可能報酬を用いた強化学習(RLVR)は、分散低減のためのベースライン推定に依存しているが、既存の手法には大きな代償が伴う。PPOはポリシーモデル規模の批評家を必要とし、GRPOは経験的グループ平均を安定させるためにプロンプトごとに複数のロールアウトを必要とする。本稿では、内部状態価値推定を用いたポリシー最適化(POISE)を導入する。これは、ポリシーのフォワードパス中にすでに計算されているポリシーモデルの内部信号を利用することで、わずかなコストでベースラインを獲得する。軽量なプローブが、プロンプトと生成された軌跡の隠れ状態、およびトークンエントロピー統計から期待検証可能報酬を予測し、ポリシーとともにオンラインで訓練される。軌跡に依存した特徴量を使用する場合でも勾配の不偏性を保つために、独立したロールアウトの内部状態から各ロールアウトの価値を予測するクロスロールアウト構造を導入する。POISEは単一のロールアウトのみを使用してプロンプト価値を推定するため、訓練中の固定計算予算内でより高いプロンプト多様性を実現する。これにより、勾配分散が低減され学習がより安定し、さらにゼロアドバンテージプロンプトを検出するためのサンプリングコストの計算オーバーヘッドが排除される。数学推論ベンチマークにおいて、Qwen3-4BおよびDeepSeek-R1-Distill-Qwen-1.5B上で、POISEはDAPOと同等の性能を達成しつつ、より少ない計算量を必要とする。さらに、その価値推定器は別のLLM規模の価値モデルと同様の性能を示し、さまざまな検証可能タスクに汎化する。モデル自身の内部表現を活用することで、POISEはより安定かつ効率的なポリシー最適化を実現する。
English
Reinforcement learning with verifiable rewards (RLVR) for Large Reasoning Models hinges on baseline estimation for variance reduction, but existing approaches pay a heavy price: PPO requires a policy-model scale critic, while GRPO needs multiple rollouts per prompt to keep its empirical group mean stable. We introduce Policy Optimization with Internal State Value Estimation), which obtains a baseline at negligible cost by using the policy model's internal signals already computed during the policy forward pass. A lightweight probe predicts the expected verifiable reward from the hidden states of the prompt and generated trajectory, as well as token-entropy statistics, and is trained online alongside the policy. To preserve gradient unbiasedness despite using trajectory-conditioned features, we introduce a cross-rollout construction that predicts each rollout's value from an independent rollout's internal states. Because POISE estimates prompt value using only a single rollout, it enables higher prompt diversity for a fixed compute budget during training. This reduces gradient variance for more stable learning and also eliminates the compute overhead of sampling costs for detecting zero-advantage prompts. On Qwen3-4B and DeepSeek-R1-Distill-Qwen-1.5B across math reasoning benchmarks, POISE matches DAPO while requiring less compute. Moreover, its value estimator shows similar performance to a separate LLM-scale value model and generalizes to various verifiable tasks. By leveraging the model's own internal representations, POISE enables more stable and efficient policy optimization.