思考するプロセス報酬モデル
Process Reward Models That Think
April 23, 2025
著者: Muhammad Khalifa, Rishabh Agarwal, Lajanugen Logeswaran, Jaekyeom Kim, Hao Peng, Moontae Lee, Honglak Lee, Lu Wang
cs.AI
要旨
ステップバイステップ検証器(Process Reward Models: PRMs)は、テスト時のスケーリングにおける重要な要素です。PRMsはステップレベルの監視を必要とするため、訓練コストが高くなります。本研究では、各解決ステップを検証するための検証チェーン・オブ・ソート(CoT)を生成する、データ効率の良いPRMsを構築することを目指しています。我々はThinkPRMを提案します。これは、識別型PRMsに比べて桁違いに少ないプロセスラベルでファインチューニングされた長いCoT検証器です。このアプローチは、長いCoTモデルが持つ内在的な推論能力を活用し、PRM800Kのプロセスラベルのわずか1%を使用しながら、LLM-as-a-Judgeや識別型検証器を上回る性能を、いくつかの挑戦的なベンチマークで示しています。具体的には、ThinkPRMはProcessBench、MATH-500、AIME '24において、best-of-N選択と報酬誘導型探索の下でベースラインを上回りました。GPQA-DiamondとLiveCodeBenchのサブセットを用いたドメイン外評価では、我々のPRMは、PRM800K全体で訓練された識別型検証器をそれぞれ8%と4.5%上回りました。最後に、同じトークン予算の下で、ThinkPRMはLLM-as-a-Judgeと比較して検証計算をより効果的にスケールアップし、ProcessBenchのサブセットで7.2%の性能向上を示しました。本研究は、訓練に最小限の監視しか必要とせず、検証のためのテスト時計算をスケールできる生成型の長いCoT PRMsの価値を強調しています。我々のコード、データ、モデルはhttps://github.com/mukhal/thinkprmで公開されます。
English
Step-by-step verifiers -- also known as process reward models (PRMs) -- are a
key ingredient for test-time scaling. PRMs require step-level supervision,
making them expensive to train. This work aims to build data-efficient PRMs as
verbalized step-wise reward models that verify every step in the solution by
generating a verification chain-of-thought (CoT). We propose ThinkPRM, a long
CoT verifier fine-tuned on orders of magnitude fewer process labels than those
required by discriminative PRMs. Our approach capitalizes on the inherent
reasoning abilities of long CoT models, and outperforms LLM-as-a-Judge and
discriminative verifiers -- using only 1% of the process labels in PRM800K --
across several challenging benchmarks. Specifically, ThinkPRM beats the
baselines on ProcessBench, MATH-500, and AIME '24 under best-of-N selection and
reward-guided search. In an out-of-domain evaluation on a subset of
GPQA-Diamond and LiveCodeBench, our PRM surpasses discriminative verifiers
trained on the full PRM800K by 8% and 4.5%, respectively. Lastly, under the
same token budget, ThinkPRM scales up verification compute more effectively
compared to LLM-as-a-Judge, outperforming it by 7.2% on a subset of
ProcessBench. Our work highlights the value of generative, long CoT PRMs that
can scale test-time compute for verification while requiring minimal
supervision for training. Our code, data, and models will be released at
https://github.com/mukhal/thinkprm.Summary
AI-Generated Summary