ChatPaper.aiChatPaper

PRL: プロセス報酬学習がLLMの推論能力を向上させ、推論の境界を拡大する

PRL: Process Reward Learning Improves LLMs' Reasoning Ability and Broadens the Reasoning Boundary

January 15, 2026
著者: Jiarui Yao, Ruida Wang, Tong Zhang
cs.AI

要旨

大規模言語モデル(LLMs)の推論能力向上は近年継続的に議論されている課題である。しかし、関連研究の多くは軌道レベルでの結果報酬に基づいており、推論プロセスにおける細粒度の監督が欠如している。プロセス信号を組み合わせてLLMsを最適化しようとする既存の訓練フレームワークも、MCTSや報酬モデルの個別訓練といった煩雑な追加工程に依存しており、訓練効率を損なう場合が多い。さらに、プロセス信号設計の背後にある直感的根拠は厳密な理論的裏付けを欠いており、最適化メカニズムの理解を不透明にしている。本論文では、エントロピー正則化強化学習目標を中間ステップに分解し、厳密なプロセス報酬をモデルに割り当て可能なProcess Reward Learning (PRL)を提案する。理論的動機付けから出発し、報酬最大化目標と政策モデル・参照モデル間のKLダイバージェンス罰則項と本質的に等価なPRLの定式化を導出する。PRLは結果報酬をプロセス監督信号に変換することで、RL最適化における探索をより効果的に誘導する。実験結果から、PRLがaverage @ nで測定されるLLMsの推論能力の平均性能を向上させるだけでなく、pass @ n指標の改善を通じて推論の限界を拡大することが実証された。大規模な実験により、PRLの有効性と一般化可能性が確認されている。
English
Improving the reasoning abilities of Large Language Models (LLMs) has been a continuous topic recently. But most relevant works are based on outcome rewards at the trajectory level, missing fine-grained supervision during the reasoning process. Other existing training frameworks that try to combine process signals together to optimize LLMs also rely heavily on tedious additional steps like MCTS, training a separate reward model, etc., doing harm to the training efficiency. Moreover, the intuition behind the process signals design lacks rigorous theoretical support, leaving the understanding of the optimization mechanism opaque. In this paper, we propose Process Reward Learning (PRL), which decomposes the entropy regularized reinforcement learning objective into intermediate steps, with rigorous process rewards that could be assigned to models accordingly. Starting from theoretical motivation, we derive the formulation of PRL that is essentially equivalent to the objective of reward maximization plus a KL-divergence penalty term between the policy model and a reference model. However, PRL could turn the outcome reward into process supervision signals, which helps better guide the exploration during RL optimization. From our experiment results, we demonstrate that PRL not only improves the average performance for LLMs' reasoning ability measured by average @ n, but also broadens the reasoning boundary by improving the pass @ n metric. Extensive experiments show the effectiveness of PRL could be verified and generalized.
PDF51January 17, 2026