ToolPRMBench: Оценка и развитие процессных моделей вознаграждения для агентов, использующих инструменты
ToolPRMBench: Evaluating and Advancing Process Reward Models for Tool-using Agents
January 18, 2026
Авторы: Dawei Li, Yuguang Yao, Zhen Tan, Huan Liu, Ruocheng Guo
cs.AI
Аннотация
Методы поиска с управлением через вознаграждение продемонстрировали значительный потенциал в улучшении агентов, использующих инструменты, за счет эффективного управления семплированием и исследованием в сложных пространствах действий. В качестве ключевого элемента эти методы используют модели пошагового вознаграждения (Process Reward Models, PRM) для предоставления вознаграждений на уровне шагов, что позволяет осуществлять более детальный мониторинг. Однако для PRM в условиях использования инструментов отсутствуют систематические и надежные бенчмарки для оценки. В данной статье мы представляем ToolPRMBench — крупномасштабный бенчмарк, специально разработанный для оценки PRM для агентов, использующих инструменты. ToolPRMBench построен на основе нескольких репрезентативных бенчмарков по использованию инструментов и преобразует траектории агентов в пошаговые тестовые случаи. Каждый случай содержит историю взаимодействия, правильное действие, правдоподобное, но неверное альтернативное действие и соответствующие метаданные инструментов. Мы используем оффлайн-семплирование для изоляции локальных ошибок на одном шаге и онлайн-семплирование для фиксации реалистичных многошаговых сбоев из полных прогонов агентов. Предложен конвейер верификации с использованием нескольких больших языковых моделей (LLM) для снижения шума в разметке и обеспечения качества данных. Мы проводим обширные эксперименты на ToolPRMBench с большими языковыми моделями, универсальными PRM и специализированными для инструментов PRM. Результаты выявляют четкие различия в эффективности PRM и подчеркивают потенциал специализированных PRM для работы с инструментами. Код и данные будут доступны по адресу https://github.com/David-Li0406/ToolPRMBench.
English
Reward-guided search methods have demonstrated strong potential in enhancing tool-using agents by effectively guiding sampling and exploration over complex action spaces. As a core design, those search methods utilize process reward models (PRMs) to provide step-level rewards, enabling more fine-grained monitoring. However, there is a lack of systematic and reliable evaluation benchmarks for PRMs in tool-using settings. In this paper, we introduce ToolPRMBench, a large-scale benchmark specifically designed to evaluate PRMs for tool-using agents. ToolPRMBench is built on top of several representative tool-using benchmarks and converts agent trajectories into step-level test cases. Each case contains the interaction history, a correct action, a plausible but incorrect alternative, and relevant tool metadata. We respectively utilize offline sampling to isolate local single-step errors and online sampling to capture realistic multi-step failures from full agent rollouts. A multi-LLM verification pipeline is proposed to reduce label noise and ensure data quality. We conduct extensive experiments across large language models, general PRMs, and tool-specialized PRMs on ToolPRMBench. The results reveal clear differences in PRM effectiveness and highlight the potential of specialized PRMs for tool-using. Code and data will be released at https://github.com/David-Li0406/ToolPRMBench.