ChatPaper.aiChatPaper

V_{0.5}: スパースRLロールアウトの事前分布としての汎用価値モデル

V_{0.5}: Generalist Value Model as a Prior for Sparse RL Rollouts

March 11, 2026
著者: Yi-Kai Zhang, Yueqing Sun, Hongyan Hao, Qi Gu, Xunliang Cai, De-Chuan Zhan, Han-Jia Ye
cs.AI

要旨

検証可能な報酬を用いた強化学習(RLVR)において、強固なアドバンテージベースラインの構築は方策勾配法において重要であり、方策モデルが望ましい行動を強化するよう効果的に導く。近年の研究では、Generalist Value Model(V_0など)が提案されている。これは、モデルの能力を文脈内で明示的に符号化することにより、事前学習された価値推定を実現し、価値モデルを方策モデルと同期して更新する必要をなくすものである。本論文では、このような価値モデル(事前分布として機能)が予測するベースラインと、スパースなロールアウトから得られる経験的平均を適応的に融合するV_{0.5}を提案する。これにより、計算効率と極めて低い分散を両立した強固なベースラインが構築される。具体的には、リアルタイム統計検定と動的バジェット割り当てを導入する。これにより、スパースサンプリングによる高分散と、価値モデルの事前分布に内在する系統的バイアス(または幻覚)のバランスを取る。事前分布の信頼性をリアルタイムで評価する仮説検定を構築することで、システムは必要に応じて追加のロールアウトバジェットを動的に割り当てる。このメカニズムは、ベースライン推定量の平均二乗誤差(MSE)を最小化し、グループサイズ4という極度のスパース性条件下でも安定した方策勾配を保証する。6つの数学的推論ベンチマークによる広範な評価により、V_{0.5}がGRPOおよびDAPOを大幅に上回り、より速い収束と約10%以上の性能向上を達成することが実証された。
English
In Reinforcement Learning with Verifiable Rewards (RLVR), constructing a robust advantage baseline is critical for policy gradients, effectively guiding the policy model to reinforce desired behaviors. Recent research has introduced Generalist Value Models (such as V_0), which achieve pre-trained value estimation by explicitly encoding model capabilities in-context, eliminating the need to synchronously update the value model alongside the policy model. In this paper, we propose V_{0.5}, which adaptively fuses the baseline predicted by such value model (acting as a prior) with the empirical mean derived from sparse rollouts. This constructs a robust baseline that balances computational efficiency with extremely low variance. Specifically, we introduce a real-time statistical testing and dynamic budget allocation. This balances the high variance caused by sparse sampling against the systematic bias (or hallucinations) inherent in the value model's prior. By constructing a hypothesis test to evaluate the prior's reliability in real-time, the system dynamically allocates additional rollout budget on demand. This mechanism minimizes the baseline estimator's Mean Squared Error (MSE), guaranteeing stable policy gradients, even under extreme sparsity with a group size of 4. Extensive evaluations across six mathematical reasoning benchmarks demonstrate that V_{0.5} significantly outperforms GRPO and DAPO, achieving faster convergence and over some 10% performance improvement.
PDF60March 13, 2026