ToolPRMBench: Bewertung und Weiterentwicklung von Prozessbelohnungsmodellen für werkzeugnutzende Agenten
ToolPRMBench: Evaluating and Advancing Process Reward Models for Tool-using Agents
January 18, 2026
papers.authors: Dawei Li, Yuguang Yao, Zhen Tan, Huan Liu, Ruocheng Guo
cs.AI
papers.abstract
Belohnungsgesteuerte Suchmethoden haben ein großes Potenzial bei der Verbesserung von werkzeugnutzenden Agenten gezeigt, indem sie die Stichprobenentnahme und Exploration in komplexen Aktionsräumen effektiv steuern. Als Kernkonzept nutzen diese Suchmethoden Prozessbelohnungsmodelle (PRMs), um schrittweise Belohnungen zu liefern und so eine fein granulierte Überwachung zu ermöglichen. Allerdings fehlt es an systematischen und zuverlässigen Evaluierungsbenchmarks für PRMs in werkzeugbasierten Umgebungen. In diesem Artikel stellen wir ToolPRMBench vor, einen groß angelegten Benchmark, der speziell zur Bewertung von PRMs für werkzeugnutzende Agenten entwickelt wurde. ToolPRMBench basiert auf mehreren repräsentativen Benchmarks zur Werkzeugnutzung und wandelt Agententrajektorien in schrittweise Testfälle um. Jeder Fall enthält den Interaktionsverlauf, eine korrekte Aktion, eine plausibel erscheinende, aber falsche Alternative sowie relevante Werkzeug-Metadaten. Wir verwenden Offline-Sampling, um lokale Einzelfehler zu isolieren, und Online-Sampling, um realistische Mehrschrittfehler aus vollständigen Agenten-Durchläufen zu erfassen. Eine Multi-LLM-Verifikationspipeline wird vorgeschlagen, um Label-Rauschen zu reduzieren und die Datenqualität zu sichern. Wir führen umfangreiche Experimente mit großen Sprachmodellen, allgemeinen PRMs und werkzeugspezifischen PRMs auf ToolPRMBench durch. Die Ergebnisse zeigen deutliche Unterschiede in der Wirksamkeit der PRMs und unterstreichen das Potenzial spezialisierter PRMs für die Werkzeugnutzung. Code und Daten werden unter https://github.com/David-Li0406/ToolPRMBench veröffentlicht.
English
Reward-guided search methods have demonstrated strong potential in enhancing tool-using agents by effectively guiding sampling and exploration over complex action spaces. As a core design, those search methods utilize process reward models (PRMs) to provide step-level rewards, enabling more fine-grained monitoring. However, there is a lack of systematic and reliable evaluation benchmarks for PRMs in tool-using settings. In this paper, we introduce ToolPRMBench, a large-scale benchmark specifically designed to evaluate PRMs for tool-using agents. ToolPRMBench is built on top of several representative tool-using benchmarks and converts agent trajectories into step-level test cases. Each case contains the interaction history, a correct action, a plausible but incorrect alternative, and relevant tool metadata. We respectively utilize offline sampling to isolate local single-step errors and online sampling to capture realistic multi-step failures from full agent rollouts. A multi-LLM verification pipeline is proposed to reduce label noise and ensure data quality. We conduct extensive experiments across large language models, general PRMs, and tool-specialized PRMs on ToolPRMBench. The results reveal clear differences in PRM effectiveness and highlight the potential of specialized PRMs for tool-using. Code and data will be released at https://github.com/David-Li0406/ToolPRMBench.