ChatPaper.aiChatPaper

ToolPRMBench: Evaluación y Avance de Modelos de Recompensa de Procesos para Agentes que Utilizan Herramientas

ToolPRMBench: Evaluating and Advancing Process Reward Models for Tool-using Agents

January 18, 2026
Autores: Dawei Li, Yuguang Yao, Zhen Tan, Huan Liu, Ruocheng Guo
cs.AI

Resumen

Los métodos de búsqueda guiada por recompensas han demostrado un gran potencial para mejorar los agentes que utilizan herramientas al guiar eficazmente el muestreo y la exploración en espacios de acción complejos. Como diseño central, estos métodos de búsqueda utilizan modelos de recompensa de proceso (PRM) para proporcionar recompensas a nivel de paso, permitiendo una monitorización más granular. Sin embargo, existe una falta de benchmarks de evaluación sistemáticos y fiables para los PRM en entornos de uso de herramientas. En este artículo, presentamos ToolPRMBench, un benchmark a gran escala diseñado específicamente para evaluar PRM para agentes que utilizan herramientas. ToolPRMBench se construye sobre varios benchmarks representativos de uso de herramientas y convierte las trayectorias de los agentes en casos de prueba a nivel de paso. Cada caso contiene el historial de interacción, una acción correcta, una alternativa plausible pero incorrecta y metadatos relevantes de las herramientas. Utilizamos respectivamente el muestreo offline para aislar errores locales de un solo paso y el muestreo online para capturar fallos realistas de múltiples pasos a partir de ejecuciones completas de los agentes. Se propone un pipeline de verificación con múltiples LLM para reducir el ruido en las etiquetas y garantizar la calidad de los datos. Realizamos extensos experimentos con grandes modelos de lenguaje, PRM generales y PRM especializados en herramientas en ToolPRMBench. Los resultados revelan diferencias claras en la efectividad de los PRM y destacan el potencial de los PRM especializados para el uso de herramientas. El código y los datos se publicarán en https://github.com/David-Li0406/ToolPRMBench.
English
Reward-guided search methods have demonstrated strong potential in enhancing tool-using agents by effectively guiding sampling and exploration over complex action spaces. As a core design, those search methods utilize process reward models (PRMs) to provide step-level rewards, enabling more fine-grained monitoring. However, there is a lack of systematic and reliable evaluation benchmarks for PRMs in tool-using settings. In this paper, we introduce ToolPRMBench, a large-scale benchmark specifically designed to evaluate PRMs for tool-using agents. ToolPRMBench is built on top of several representative tool-using benchmarks and converts agent trajectories into step-level test cases. Each case contains the interaction history, a correct action, a plausible but incorrect alternative, and relevant tool metadata. We respectively utilize offline sampling to isolate local single-step errors and online sampling to capture realistic multi-step failures from full agent rollouts. A multi-LLM verification pipeline is proposed to reduce label noise and ensure data quality. We conduct extensive experiments across large language models, general PRMs, and tool-specialized PRMs on ToolPRMBench. The results reveal clear differences in PRM effectiveness and highlight the potential of specialized PRMs for tool-using. Code and data will be released at https://github.com/David-Li0406/ToolPRMBench.
PDF131January 22, 2026