AgentProcessBench: 도구 사용 에이전트의 단계별 프로세스 품질 진단
AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents
March 15, 2026
저자: Shengda Fan, Xuyan Ye, Yupeng Huo, Zhi-Yuan Chen, Yiju Guo, Shenzhi Yang, Wenkai Yang, Shuqi Ye, Jingwen Chen, Haotian Chen, Xin Cong, Yankai Lin
cs.AI
초록
대규모 언어 모델(LLM)이 도구 활용 에이전트로 진화했음에도 불구하고, 장기적인 상호작용에서는 여전히 취약한 모습을 보입니다. 수학적 추론에서 오류는 역추적을 통해 수정 가능한 경우가 많은 반면, 도구 사용 실패는 종종 되돌릴 수 없는 부작용을 초래하므로 정확한 단계별 검증이 매우 중요합니다. 그러나 기존의 프로세스 수준 벤치마크는 주로 폐쇄적인 수학 영역에 한정되어 있어 도구 실행의 동적이고 개방적인 특성을 제대로 반영하지 못하고 있습니다. 이러한 격차를 해소하기 위해 우리는 현실적인 도구 보강 궤적에서 단계별 효과성을 평가하는 최초의 벤치마크인 AgentProcessBench를 소개합니다. 이 벤치마크는 1,000개의 다양한 궤적과 8,509개의 인간 주석가가 단계별로 라벨링한 데이터(주석가 간 일치도 89.1%)로 구성됩니다. 탐색 과정을 포착하기 위한 3분법 라벨링 체계와 라벨링 모호성을 줄이기 위한 오류 전파 규칙을 특징으로 합니다. 광범위한 실험을 통해 다음과 같은 핵심 통찰을 얻었습니다: (1) 약한 정책 모델은 조기 종료로 인해 정확한 단계의 비율이 과대평가된다, (2) 중립적 행동과 오류 행동을 구분하는 것은 현재 모델들에게 여전히 큰 과제이다, (3) 프로세스에서 도출된 신호는 결과 기반 감독에 보완적 가치를 제공하여 테스트 시 스케일링을 크게 향상시킨다. AgentProcessBench가 향후 보상 모델 연구를 촉진하고 범용 에이전트로 가는 길을 열어가기를 기대합니다. 코드와 데이터는 https://github.com/RUCBM/AgentProcessBench에서 확인할 수 있습니다.
English
While Large Language Models (LLMs) have evolved into tool-using agents, they remain brittle in long-horizon interactions. Unlike mathematical reasoning where errors are often rectifiable via backtracking, tool-use failures frequently induce irreversible side effects, making accurate step-level verification critical. However, existing process-level benchmarks are predominantly confined to closed-world mathematical domains, failing to capture the dynamic and open-ended nature of tool execution. To bridge this gap, we introduce AgentProcessBench, the first benchmark dedicated to evaluating step-level effectiveness in realistic, tool-augmented trajectories. The benchmark comprises 1,000 diverse trajectories and 8,509 human-labeled step annotations with 89.1% inter-annotator agreement. It features a ternary labeling scheme to capture exploration and an error propagation rule to reduce labeling ambiguity. Extensive experiments reveal key insights: (1) weaker policy models exhibit inflated ratios of correct steps due to early termination; (2) distinguishing neutral and erroneous actions remains a significant challenge for current models; and (3) process-derived signals provide complementary value to outcome supervision, significantly enhancing test-time scaling. We hope AgentProcessBench can foster future research in reward models and pave the way toward general agents. The code and data are available at https://github.com/RUCBM/AgentProcessBench.