ToolPRMBench: ツール利用エージェントのためのプロセス報酬モデルの評価と進展
ToolPRMBench: Evaluating and Advancing Process Reward Models for Tool-using Agents
January 18, 2026
著者: Dawei Li, Yuguang Yao, Zhen Tan, Huan Liu, Ruocheng Guo
cs.AI
要旨
報酬誘導型探索手法は、複雑な行動空間におけるサンプリングと探索を効果的に導くことで、ツール利用エージェントの性能向上に強い可能性を示している。中核的な設計として、これらの探索手法はプロセス報酬モデル(PRM)を利用してステップ単位の報酬を提供し、より細かなモニタリングを可能にしている。しかし、ツール利用環境におけるPRMの体系的かつ信頼性の高い評価ベンチマークは不足している。本論文では、ツール利用エージェント向けPRMを評価するために特別に設計された大規模ベンチマーク「ToolPRMBench」を提案する。ToolPRMBenchは、いくつかの代表的なツール利用ベンチマークを基盤とし、エージェントの軌跡をステップ単位のテストケースに変換する。各ケースは、インタラクション履歴、正しい行動、もっともらしいが誤った代替行動、および関連するツールメタデータを含む。我々は、局所的な単一ステップの誤りを分離するためにオフラインサンプリングを、完全なエージェントのロールアウトから現実的な多ステップの失敗を捕捉するためにオンラインサンプリングをそれぞれ利用する。ラベルノイズを低減しデータ品質を確保するために、複数LLMによる検証パイプラインを提案する。ToolPRMBenchを用いて、大規模言語モデル、汎用PRM、およびツール特化型PRMにわたる広範な実験を実施した。結果は、PRMの有効性に明確な差異があることを明らかにし、ツール利用における特化型PRMの可能性を浮き彫りにしている。コードとデータはhttps://github.com/David-Li0406/ToolPRMBench で公開予定である。
English
Reward-guided search methods have demonstrated strong potential in enhancing tool-using agents by effectively guiding sampling and exploration over complex action spaces. As a core design, those search methods utilize process reward models (PRMs) to provide step-level rewards, enabling more fine-grained monitoring. However, there is a lack of systematic and reliable evaluation benchmarks for PRMs in tool-using settings. In this paper, we introduce ToolPRMBench, a large-scale benchmark specifically designed to evaluate PRMs for tool-using agents. ToolPRMBench is built on top of several representative tool-using benchmarks and converts agent trajectories into step-level test cases. Each case contains the interaction history, a correct action, a plausible but incorrect alternative, and relevant tool metadata. We respectively utilize offline sampling to isolate local single-step errors and online sampling to capture realistic multi-step failures from full agent rollouts. A multi-LLM verification pipeline is proposed to reduce label noise and ensure data quality. We conduct extensive experiments across large language models, general PRMs, and tool-specialized PRMs on ToolPRMBench. The results reveal clear differences in PRM effectiveness and highlight the potential of specialized PRMs for tool-using. Code and data will be released at https://github.com/David-Li0406/ToolPRMBench.