ToolPRMBench : Évaluation et amélioration des modèles de récompense de processus pour les agents utilisant des outils
ToolPRMBench: Evaluating and Advancing Process Reward Models for Tool-using Agents
January 18, 2026
papers.authors: Dawei Li, Yuguang Yao, Zhen Tan, Huan Liu, Ruocheng Guo
cs.AI
papers.abstract
Les méthodes de recherche guidée par récompense ont démontré un fort potentiel pour améliorer les agents utilisant des outils en guidant efficacement l'échantillonnage et l'exploration d'espaces d'actions complexes. Comme conception fondamentale, ces méthodes de recherche utilisent des modèles de récompense de processus (PRM) pour fournir des récompenses au niveau des étapes, permettant un suivi plus granulaire. Cependant, il manque des benchmarks d'évaluation systématiques et fiables pour les PRM dans des contextes d'utilisation d'outils. Dans cet article, nous présentons ToolPRMBench, un benchmark à grande échelle spécialement conçu pour évaluer les PRM pour les agents utilisant des outils. ToolPRMBench est construit sur plusieurs benchmarks représentatifs d'utilisation d'outils et convertit les trajectoires des agents en cas de test au niveau des étapes. Chaque cas contient l'historique des interactions, une action correcte, une alternative plausible mais incorrecte et des métadonnées d'outils pertinentes. Nous utilisons respectivement l'échantillonnage hors ligne pour isoler les erreurs locales à une étape et l'échantillonage en ligne pour capturer les échecs réalistes multi-étapes à partir de déploiements complets d'agents. Un pipeline de vérification multi-LLM est proposé pour réduire le bruit des étiquettes et garantir la qualité des données. Nous menons des expériences approfondies sur ToolPRMBench avec de grands modèles de langage, des PRM généraux et des PRM spécialisés pour les outils. Les résultats révèlent des différences nettes dans l'efficacité des PRM et mettent en évidence le potentiel des PRM spécialisés pour l'utilisation d'outils. Le code et les données seront publiés à l'adresse https://github.com/David-Li0406/ToolPRMBench.
English
Reward-guided search methods have demonstrated strong potential in enhancing tool-using agents by effectively guiding sampling and exploration over complex action spaces. As a core design, those search methods utilize process reward models (PRMs) to provide step-level rewards, enabling more fine-grained monitoring. However, there is a lack of systematic and reliable evaluation benchmarks for PRMs in tool-using settings. In this paper, we introduce ToolPRMBench, a large-scale benchmark specifically designed to evaluate PRMs for tool-using agents. ToolPRMBench is built on top of several representative tool-using benchmarks and converts agent trajectories into step-level test cases. Each case contains the interaction history, a correct action, a plausible but incorrect alternative, and relevant tool metadata. We respectively utilize offline sampling to isolate local single-step errors and online sampling to capture realistic multi-step failures from full agent rollouts. A multi-LLM verification pipeline is proposed to reduce label noise and ensure data quality. We conduct extensive experiments across large language models, general PRMs, and tool-specialized PRMs on ToolPRMBench. The results reveal clear differences in PRM effectiveness and highlight the potential of specialized PRMs for tool-using. Code and data will be released at https://github.com/David-Li0406/ToolPRMBench.