ToolPRMBench: 도구 활용 에이전트를 위한 과정 보상 모델 평가 및 발전
ToolPRMBench: Evaluating and Advancing Process Reward Models for Tool-using Agents
January 18, 2026
저자: Dawei Li, Yuguang Yao, Zhen Tan, Huan Liu, Ruocheng Guo
cs.AI
초록
보상 기반 탐색 방법은 복잡한 행동 공간에서 샘플링과 탐색을 효과적으로 안내함으로써 도구 사용 에이전트의 성능 향상에 강력한 잠재력을 보여주고 있다. 핵심 설계로, 이러한 탐색 방법은 단계별 보상을 제공하는 과정 보상 모델(PRM)을 활용하여 보다 세분화된 모니터링을 가능하게 한다. 그러나 도구 사용 환경에서 PRM을 체계적이고 신뢰할 수 있게 평가할 기준이 부족한 실정이다. 본 논문에서는 도구 사용 에이전트를 위한 PRM 평가를 위해 특별히 설계된 대규모 벤치마크인 ToolPRMBench를 소개한다. ToolPRMBench는 여러 대표적인 도구 사용 벤치마크를 기반으로 구축되었으며, 에이전트 궤적을 단계별 테스트 케이스로 변환한다. 각 케이스에는 상호작용 이력, 올바른 행동, 그럴듯하지만 잘못된 대안 행동, 그리고 관련 도구 메타데이터가 포함된다. 우리는 오프라인 샘플링을 통해 지역적 단일 단계 오류를 분리하고, 온라인 샘플링을 통해 전체 에이전트 실행에서 발생하는 현실적인 다단계 실패를 포착한다. 레이블 노이즈를 줄이고 데이터 품질을 보장하기 위해 다중 LLM 검증 파이프라인을 제안한다. ToolPRMBench를 통해 대규모 언어 모델, 일반 PRM, 그리고 도구 특화 PRM에 걸쳐 광범위한 실험을 수행한다. 결과는 PRM의 효과성에 있어 뚜렷한 차이를 보여주며, 도구 사용을 위한 특화된 PRM의 잠재력을 강조한다. 코드와 데이터는 https://github.com/David-Li0406/ToolPRMBench에서 공개될 예정이다.
English
Reward-guided search methods have demonstrated strong potential in enhancing tool-using agents by effectively guiding sampling and exploration over complex action spaces. As a core design, those search methods utilize process reward models (PRMs) to provide step-level rewards, enabling more fine-grained monitoring. However, there is a lack of systematic and reliable evaluation benchmarks for PRMs in tool-using settings. In this paper, we introduce ToolPRMBench, a large-scale benchmark specifically designed to evaluate PRMs for tool-using agents. ToolPRMBench is built on top of several representative tool-using benchmarks and converts agent trajectories into step-level test cases. Each case contains the interaction history, a correct action, a plausible but incorrect alternative, and relevant tool metadata. We respectively utilize offline sampling to isolate local single-step errors and online sampling to capture realistic multi-step failures from full agent rollouts. A multi-LLM verification pipeline is proposed to reduce label noise and ensure data quality. We conduct extensive experiments across large language models, general PRMs, and tool-specialized PRMs on ToolPRMBench. The results reveal clear differences in PRM effectiveness and highlight the potential of specialized PRMs for tool-using. Code and data will be released at https://github.com/David-Li0406/ToolPRMBench.