ChatPaper.aiChatPaper

教師なしプロセス報酬モデル

Unsupervised Process Reward Models

May 11, 2026
著者: Artyom Gadetsky, Maxim Kodryan, Siba Smarak Panigrahi, Hang Guo, Maria Brbic
cs.AI

要旨

プロセス報酬モデル(PRM)は、細粒度のステップレベルでの監督を提供することで、大規模言語モデルの推論を導く強力な機構である。しかし、この有効性には大きなコストが伴う。PRMには、すべての推論ステップに対して専門家によるアノテーションが必要であり、そのためコストが高く、スケーリングが困難となる。本稿では、ステップ単位のアノテーションのレベルでも、最終回答の正解検証を通じても、人間の監督を一切必要としない、教師なしPRM(uPRM)の訓練手法を提案する。本手法の核となるアイデアは、LLMの次トークン確率から導出されるスコアリング関数を定義し、これによって推論軌跡のバッチ全体にわたって最初の誤りステップの候補位置を共同で評価することである。我々は、uPRMの有効性を多様なシナリオで実証する。(i) uPRMは、ProcessBenchデータセットにおける最初の誤りステップの特定において、LLM-as-a-Judgeと比較して最大15%の絶対精度向上を達成する。(ii) テスト時スケーリングの検証器として、uPRMは教師ありPRMと同等の性能を示し、多数決投票ベースラインを最大6.9%上回る。(iii) 強化学習における報酬信号として使用した場合、uPRMは、正解ラベルを用いて訓練された教師ありPRMと比較して、訓練全体を通じてよりロバストな方策最適化を可能にする。全体として、我々の結果は、複雑な推論タスクにおけるスケーラブルな報酬モデリングへの道を開くものである。
English
Process Reward Models (PRMs) are a powerful mechanism for steering large language model reasoning by providing fine-grained, step-level supervision. However, this effectiveness comes at a significant cost: PRMs require expert annotations for every reasoning step, making them costly and difficult to scale. Here, we propose a method for training unsupervised PRMs (uPRM) that requires no human supervision, neither at the level of step-by-step annotations nor through ground-truth verification of final answers. The key idea behind our approach is to define a scoring function, derived from LLM next-token probabilities, that jointly assesses candidate positions of first erroneous steps across a batch of reasoning trajectories. We demonstrate the effectiveness of uPRM across diverse scenarios: (i) uPRM achieves up to 15% absolute accuracy improvements over the LLM-as-a-Judge in identifying first erroneous steps on the ProcessBench dataset; (ii) as a verifier for test-time scaling, uPRM performs comparably to supervised PRMs and outperforms the majority voting baseline by up to 6.9%, and (iii) when used as a reward signal in reinforcement learning, uPRM enables more robust policy optimization throughout training compared to a supervised PRM trained using ground-truth labels. Overall, our results open a path toward scalable reward modeling for complex reasoning tasks.