ToolPRMBench: Valutazione e Avanzamento dei Modelli di Ricompensa di Processo per Agenti che Utilizzano Strumenti

Abstract

I metodi di ricerca guidati da ricompense hanno dimostrato un forte potenziale nel migliorare gli agenti che utilizzano strumenti, guidando efficacemente il campionamento e l'esplorazione di spazi d'azione complessi. Come progetto centrale, questi metodi di ricerca utilizzano modelli di ricompensa di processo (PRM) per fornire ricompense a livello di step, consentendo un monitoraggio più granulare. Tuttavia, mancano benchmark di valutazione sistematici e affidabili per i PRM in contesti di utilizzo di strumenti. In questo articolo, introduciamo ToolPRMBench, un benchmark su larga scala specificamente progettato per valutare i PRM per agenti che utilizzano strumenti. ToolPRMBench è costruito su diversi benchmark rappresentativi di utilizzo di strumenti e converte le traiettorie degli agenti in casi di test a livello di step. Ogni caso contiene la cronologia delle interazioni, un'azione corretta, un'alternativa plausibile ma errata e i metadati pertinenti dello strumento. Utilizziamo rispettivamente il campionamento offline per isolare errori singoli locali e il campionamento online per catturare fallimenti realistici multi-step dai rollout completi degli agenti. Viene proposta una pipeline di verifica multi-LLM per ridurre il rumore delle etichette e garantire la qualità dei dati. Condurremo esperimenti estesi su ToolPRMBench su modelli linguistici di grandi dimensioni, PRM generici e PRM specializzati per strumenti. I risultati rivelano chiare differenze nell'efficacia dei PRM e evidenziano il potenziale dei PRM specializzati per l'utilizzo di strumenti. Il codice e i dati saranno rilasciati su https://github.com/David-Li0406/ToolPRMBench.

English

Reward-guided search methods have demonstrated strong potential in enhancing tool-using agents by effectively guiding sampling and exploration over complex action spaces. As a core design, those search methods utilize process reward models (PRMs) to provide step-level rewards, enabling more fine-grained monitoring. However, there is a lack of systematic and reliable evaluation benchmarks for PRMs in tool-using settings. In this paper, we introduce ToolPRMBench, a large-scale benchmark specifically designed to evaluate PRMs for tool-using agents. ToolPRMBench is built on top of several representative tool-using benchmarks and converts agent trajectories into step-level test cases. Each case contains the interaction history, a correct action, a plausible but incorrect alternative, and relevant tool metadata. We respectively utilize offline sampling to isolate local single-step errors and online sampling to capture realistic multi-step failures from full agent rollouts. A multi-LLM verification pipeline is proposed to reduce label noise and ensure data quality. We conduct extensive experiments across large language models, general PRMs, and tool-specialized PRMs on ToolPRMBench. The results reveal clear differences in PRM effectiveness and highlight the potential of specialized PRMs for tool-using. Code and data will be released at https://github.com/David-Li0406/ToolPRMBench.

ToolPRMBench: Valutazione e Avanzamento dei Modelli di Ricompensa di Processo per Agenti che Utilizzano Strumenti

ToolPRMBench: Evaluating and Advancing Process Reward Models for Tool-using Agents

Abstract

Support