ToolPRMBench: Avaliação e Avanço dos Modelos de Recompensa de Processo para Agentes que Utilizam Ferramentas

Resumo

Os métodos de busca guiada por recompensa demonstraram forte potencial na melhoria de agentes que utilizam ferramentas, orientando eficazmente a amostragem e a exploração em espaços de ação complexos. Como um projeto central, esses métodos de busca utilizam modelos de recompensa de processo (PRMs) para fornecer recompensas a nível de etapa, permitindo um monitoramento mais refinado. No entanto, há uma carência de benchmarks de avaliação sistemáticos e confiáveis para PRMs em contextos de utilização de ferramentas. Neste artigo, apresentamos o ToolPRMBench, um benchmark de larga escala especificamente concebido para avaliar PRMs para agentes que utilizam ferramentas. O ToolPRMBench é construído sobre vários benchmarks representativos de utilização de ferramentas e converte trajetórias de agentes em casos de teste a nível de etapa. Cada caso contém o histórico de interação, uma ação correta, uma alternativa plausível mas incorreta e metadados relevantes da ferramenta. Utilizamos respetivamente a amostragem offline para isolar erros locais de etapa única e a amostragem online para capturar falhas realistas de múltiplas etapas a partir de execuções completas do agente. É proposta um pipeline de verificação multi-LLM para reduzir o ruído de etiquetagem e garantir a qualidade dos dados. Realizamos experiências extensas em modelos de linguagem de grande escala, PRMs gerais e PRMs especializados em ferramentas no ToolPRMBench. Os resultados revelam diferenças claras na eficácia dos PRMs e destacam o potencial dos PRMs especializados para utilização de ferramentas. O código e os dados serão disponibilizados em https://github.com/David-Li0406/ToolPRMBench.

English

Reward-guided search methods have demonstrated strong potential in enhancing tool-using agents by effectively guiding sampling and exploration over complex action spaces. As a core design, those search methods utilize process reward models (PRMs) to provide step-level rewards, enabling more fine-grained monitoring. However, there is a lack of systematic and reliable evaluation benchmarks for PRMs in tool-using settings. In this paper, we introduce ToolPRMBench, a large-scale benchmark specifically designed to evaluate PRMs for tool-using agents. ToolPRMBench is built on top of several representative tool-using benchmarks and converts agent trajectories into step-level test cases. Each case contains the interaction history, a correct action, a plausible but incorrect alternative, and relevant tool metadata. We respectively utilize offline sampling to isolate local single-step errors and online sampling to capture realistic multi-step failures from full agent rollouts. A multi-LLM verification pipeline is proposed to reduce label noise and ensure data quality. We conduct extensive experiments across large language models, general PRMs, and tool-specialized PRMs on ToolPRMBench. The results reveal clear differences in PRM effectiveness and highlight the potential of specialized PRMs for tool-using. Code and data will be released at https://github.com/David-Li0406/ToolPRMBench.