AgentProcessBench: Диагностика качества пошагового процесса в инструментальных агентах

Аннотация

Хотя большие языковые модели (LLM) эволюционировали в агентов, использующих инструменты, они остаются ненадежными в долгосрочных взаимодействиях. В отличие от математических рассуждений, где ошибки часто можно исправить путем возврата, сбои при использовании инструментов часто вызывают необратимые побочные эффекты, что делает критически важной точную пошаговую верификацию. Однако существующие бенчмарки на уровне процессов в основном ограничены замкнутыми математическими областями и не отражают динамическую и открытую природу выполнения инструментов. Чтобы заполнить этот пробел, мы представляем AgentProcessBench — первый бенчмарк, предназначенный для оценки эффективности на уровне шагов в реалистичных траекториях, усиленных инструментами. Бенчмарк включает 1000 разнообразных траекторий и 8509 размеченных человеком шагов с согласованностью аннотаторов 89,1%. Он использует трехзначную схему маркировки для фиксации исследования и правило распространения ошибок для снижения неоднозначности разметки. Масштабные эксперименты выявили ключевые инсайты: (1) более слабые модельные политики демонстрируют завышенную долю правильных шагов из-за преждевременного завершения; (2) различение нейтральных и ошибочных действий остается серьезной проблемой для современных моделей; и (3) сигналы, полученные из процесса, предоставляют дополнительную ценность по сравнению с контролем по результату, значительно улучшая масштабируемость во время тестирования. Мы надеемся, что AgentProcessBench будет способствовать будущим исследованиям в области моделей вознаграждения и проложит путь к созданию универсальных агентов. Код и данные доступны по адресу https://github.com/RUCBM/AgentProcessBench.

English

While Large Language Models (LLMs) have evolved into tool-using agents, they remain brittle in long-horizon interactions. Unlike mathematical reasoning where errors are often rectifiable via backtracking, tool-use failures frequently induce irreversible side effects, making accurate step-level verification critical. However, existing process-level benchmarks are predominantly confined to closed-world mathematical domains, failing to capture the dynamic and open-ended nature of tool execution. To bridge this gap, we introduce AgentProcessBench, the first benchmark dedicated to evaluating step-level effectiveness in realistic, tool-augmented trajectories. The benchmark comprises 1,000 diverse trajectories and 8,509 human-labeled step annotations with 89.1% inter-annotator agreement. It features a ternary labeling scheme to capture exploration and an error propagation rule to reduce labeling ambiguity. Extensive experiments reveal key insights: (1) weaker policy models exhibit inflated ratios of correct steps due to early termination; (2) distinguishing neutral and erroneous actions remains a significant challenge for current models; and (3) process-derived signals provide complementary value to outcome supervision, significantly enhancing test-time scaling. We hope AgentProcessBench can foster future research in reward models and pave the way toward general agents. The code and data are available at https://github.com/RUCBM/AgentProcessBench.

AgentProcessBench: Диагностика качества пошагового процесса в инструментальных агентах

AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents

Аннотация

Support