ToolPRMBench: Evaluatie en Verbetering van Procesbeloningsmodellen voor Gereedschapsgebruikende Agents
ToolPRMBench: Evaluating and Advancing Process Reward Models for Tool-using Agents
January 18, 2026
Auteurs: Dawei Li, Yuguang Yao, Zhen Tan, Huan Liu, Ruocheng Guo
cs.AI
Samenvatting
Beloningsgestuurde zoekmethoden hebben een sterk potentieel getoond bij het verbeteren van gereedschapsgebruikende agentschappen door het effectief sturen van steekproefname en exploratie in complexe actieruimten. Als kernontwerp maken deze zoekmethoden gebruik van procesbeloningsmodellen (PRM's) om stapsgewijze beloningen te bieden, wat een fijnmazigere monitoring mogelijk maakt. Er bestaat echter een gebrek aan systematische en betrouwbare evaluatiebenchmarks voor PRM's in gereedschapsgebruikende contexten. In dit artikel introduceren we ToolPRMBench, een grootschalige benchmark die specifiek is ontworpen om PRM's voor gereedschapsgebruikende agentschappen te evalueren. ToolPRMBench is gebaseerd op verschillende representatieve gereedschapsgebruikende benchmarks en zet agenttrajecten om in stapsgewijze testgevallen. Elk geval bevat de interactiegeschiedenis, een correcte actie, een plausibele maar incorrecte alternatieve actie, en relevante gereedschapsmetadata. We gebruiken respectievelijk offline steekproefname om lokale eenstapsfouten te isoleren en online steekproefname om realistische meerstapsfouten uit volledige agentuitvoeringen vast te leggen. Een multi-LLM-verificatiepipeline wordt voorgesteld om labelruis te verminderen en de datakwaliteit te waarborgen. We voeren uitgebreide experimenten uit met grote taalmodel(len), algemene PRM's en gereedschapsspecifieke PRM's op ToolPRMBench. De resultaten tonen duidelijke verschillen in PRM-effectiviteit en belichten het potentieel van gespecialiseerde PRM's voor gereedschapsgebruik. Code en data worden vrijgegeven op https://github.com/David-Li0406/ToolPRMBench.
English
Reward-guided search methods have demonstrated strong potential in enhancing tool-using agents by effectively guiding sampling and exploration over complex action spaces. As a core design, those search methods utilize process reward models (PRMs) to provide step-level rewards, enabling more fine-grained monitoring. However, there is a lack of systematic and reliable evaluation benchmarks for PRMs in tool-using settings. In this paper, we introduce ToolPRMBench, a large-scale benchmark specifically designed to evaluate PRMs for tool-using agents. ToolPRMBench is built on top of several representative tool-using benchmarks and converts agent trajectories into step-level test cases. Each case contains the interaction history, a correct action, a plausible but incorrect alternative, and relevant tool metadata. We respectively utilize offline sampling to isolate local single-step errors and online sampling to capture realistic multi-step failures from full agent rollouts. A multi-LLM verification pipeline is proposed to reduce label noise and ensure data quality. We conduct extensive experiments across large language models, general PRMs, and tool-specialized PRMs on ToolPRMBench. The results reveal clear differences in PRM effectiveness and highlight the potential of specialized PRMs for tool-using. Code and data will be released at https://github.com/David-Li0406/ToolPRMBench.