SPARK: 参照不要の強化学習のための段階的プロセス対応報酬
SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning
December 2, 2025
著者: Salman Rahman, Sruthi Gorantla, Arpit Gupta, Swastik Roy, Nanyun Peng, Yang Liu
cs.AI
要旨
プロセス報酬モデル(PRM)は、密なステップ単位のフィードバックを提供することで強化学習に有望な成果を示しているが、高コストなステップ単位の注釈や正解データへの依存が普及の障壁となっている。本研究ではSPARKを提案する:第一段階では生成モデルが多様な解を生成し、検証モデルが並列スケーリング(自己整合性)と逐次スケーリング(メタ批評)を用いて評価を行う。第二段階では、これらの検証出力を合成訓練データとして活用し、生成型プロセス報酬モデルをファインチューニングする。これらは後段の訓練で報酬信号として機能する。ステップ単位で複数の独立した検証を集約することで、正解データによる教師あり学習を上回るプロセス報酬モデルの訓練データが生成可能であることを実証し、ProcessBench(数学的推論の誤りステップを特定するベンチマーク)において67.5 F1を達成した。これは正解データ参照型訓練の66.4、GPT-4oの61.9を上回る。最終段階では、生成型PRMに思考連鎖検証(PRM-CoT)を組み合わせた報酬モデルを数学的推論のRL実験に適用し、報酬ハッキングを防ぐための形式制約を導入する。Qwen2.5-Math-7Bを用いた実験では、6つの数学的推論ベンチマークで平均47.4%の精度を達成し、正解データベースのRLVR(43.9%)を上回った。本手法は正解データを必要とせずに正解データベース手法を超えるRL訓練を可能にし、検証可能な答えやアクセス可能な正解データが不足する領域への新たな可能性を開くものである。
English
Process reward models (PRMs) that provide dense, step-level feedback have shown promise for reinforcement learning, yet their adoption remains limited by the need for expensive step-level annotations or ground truth references. We propose SPARK: a three-stage framework where in the first stage a generator model produces diverse solutions and a verifier model evaluates them using parallel scaling (self-consistency) and sequential scaling (meta-critique). In the second stage, we use these verification outputs as synthetic training data to fine-tune generative process reward models, which subsequently serve as reward signals during training. We show that aggregating multiple independent verifications at the step level produces training data for process reward models that surpass ground-truth outcome supervision, achieving 67.5 F1 on ProcessBench (a benchmark for identifying erroneous steps in mathematical reasoning) compared to 66.4 for reference-guided training and 61.9 for GPT-4o. In the final stage, we apply our generative PRM with chain-of-thought verification (PRM-CoT) as the reward model in RL experiments on mathematical reasoning, and introduce format constraints to prevent reward hacking. Using Qwen2.5-Math-7B, we achieve 47.4% average accuracy across six mathematical reasoning benchmarks, outperforming ground-truth-based RLVR (43.9%). Our work enables reference-free RL training that exceeds ground-truth methods, opening new possibilities for domains lacking verifiable answers or accessible ground truth.