ChatPaper.aiChatPaper

正確性を超えて:RLトレーニングによるプロセスと結果の報酬の調和

Beyond Correctness: Harmonizing Process and Outcome Rewards through RL Training

September 3, 2025
著者: Chenlu Ye, Zhou Yu, Ziji Zhang, Hao Chen, Narayanan Sadagopan, Jing Huang, Tong Zhang, Anurag Beniwal
cs.AI

要旨

検証可能な報酬を用いた強化学習(RLVR)は、数学的推論タスクにおいて主要なパラダイムとして登場し、推論能力の安定した向上を提供してきました。しかし、RLVRにおける結果報酬モデル(ORMs)は粒度が粗すぎて、正しい答えの中の欠陥のある推論や、間違った答えの中の有効な推論を区別することができません。この粒度の欠如は、ノイズの多い誤解を招く勾配を大幅に導入し、推論プロセスの品質のさらなる進歩を妨げます。一方、プロセス報酬モデル(PRMs)は中間ステップに対する細かいガイダンスを提供しますが、不正確さに悩まされやすく、報酬ハッキングの影響を受けやすいという問題があります。 このジレンマを解決するために、私たちはPRocess cOnsistency Filter(PROF)を導入します。これは、ノイズの多い細かいプロセス報酬と正確な粗い結果報酬を調和させる効果的なデータプロセスキュレーション手法です。目的関数においてPRMとORMを単純にブレンドするのではなく(arXiv:archive/2506.18896)、PROFは一貫性駆動のサンプル選択を通じてそれらの補完的な強みを活用します。私たちのアプローチは、より高い平均プロセス値を持つ正しい応答と、より低い平均プロセス値を持つ間違った応答を保持しつつ、正/負のトレーニングサンプルのバランスを維持します。広範な実験により、私たちの方法がブレンドアプローチと比較して最終的な精度を4%以上一貫して向上させるだけでなく、中間推論ステップの品質も強化することが実証されました。コードとトレーニングレシピはhttps://github.com/Chenluye99/PROFで利用可能です。
English
Reinforcement learning with verifiable rewards (RLVR) has emerged to be a predominant paradigm for mathematical reasoning tasks, offering stable improvements in reasoning ability. However, Outcome Reward Models (ORMs) in RLVR are too coarse-grained to distinguish flawed reasoning within correct answers or valid reasoning within incorrect answers. This lack of granularity introduces noisy and misleading gradients significantly and hinders further progress in reasoning process quality. While Process Reward Models (PRMs) offer fine-grained guidance for intermediate steps, they frequently suffer from inaccuracies and are susceptible to reward hacking. To resolve this dilemma, we introduce PRocess cOnsistency Filter (PROF), an effective data process curation method that harmonizes noisy, fine-grained process rewards with accurate, coarse-grained outcome rewards. Rather than naively blending PRM and ORM in the objective function (arXiv:archive/2506.18896), PROF leverages their complementary strengths through consistency-driven sample selection. Our approach retains correct responses with higher averaged process values and incorrect responses with lower averaged process values, while maintaining positive/negative training sample balance. Extensive experiments demonstrate that our method not only consistently improves the final accuracy over 4% compared to the blending approaches, but also strengthens the quality of intermediate reasoning steps. Codes and training recipes are available at https://github.com/Chenluye99/PROF.
PDF212September 5, 2025