ChatPaper.aiChatPaper

AgentProcessBench: ツール利用エージェントにおけるステップ単位のプロセス品質診断

AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents

March 15, 2026
著者: Shengda Fan, Xuyan Ye, Yupeng Huo, Zhi-Yuan Chen, Yiju Guo, Shenzhi Yang, Wenkai Yang, Shuqi Ye, Jingwen Chen, Haotian Chen, Xin Cong, Yankai Lin
cs.AI

要旨

大規模言語モデル(LLM)がツール利用エージェントへと進化を遂げる中、長期的な相互作用における脆弱性は未だに残されている。数学的推論では誤りがバックトラッキングによって修正可能であるのに対し、ツール利用の失敗は不可逆的な副作用を引き起こすことが多いため、正確なステップ単位の検証が極めて重要となる。しかし、既存のプロセス評価基準は閉鎖的な数学領域に限定されており、ツール実行の動的かつ開放的な性質を捉えられていない。この隔たりを埋めるため、我々は現実的なツール連携軌道におけるステップ単位の有効性を評価する初のベンチマーク「AgentProcessBench」を提案する。本ベンチマークは1,000の多様な軌道と8,509の人手ラベル付きステップ注釈(注釈者間一致率89.1%)で構成され、探索行動を捉える三値ラベル体系とラベル曖昧性を低減する誤り伝播規則を特徴とする。大規模実験により以下の知見が得られた:(1)性能の低いポリシーモデルは早期終了により正解ステップ比率が過大評価される(2)中立行動と誤り行動の識別は現行モデルにとって重大な課題である(3)プロセス由来の信号は結果監視と相補的価値を持ち、テスト時スケーリングを大幅に改善する。AgentProcessBenchが報酬モデルの発展を促進し、汎用エージェント実現への道筋を拓くことを期待する。コードとデータはhttps://github.com/RUCBM/AgentProcessBench で公開されている。
English
While Large Language Models (LLMs) have evolved into tool-using agents, they remain brittle in long-horizon interactions. Unlike mathematical reasoning where errors are often rectifiable via backtracking, tool-use failures frequently induce irreversible side effects, making accurate step-level verification critical. However, existing process-level benchmarks are predominantly confined to closed-world mathematical domains, failing to capture the dynamic and open-ended nature of tool execution. To bridge this gap, we introduce AgentProcessBench, the first benchmark dedicated to evaluating step-level effectiveness in realistic, tool-augmented trajectories. The benchmark comprises 1,000 diverse trajectories and 8,509 human-labeled step annotations with 89.1% inter-annotator agreement. It features a ternary labeling scheme to capture exploration and an error propagation rule to reduce labeling ambiguity. Extensive experiments reveal key insights: (1) weaker policy models exhibit inflated ratios of correct steps due to early termination; (2) distinguishing neutral and erroneous actions remains a significant challenge for current models; and (3) process-derived signals provide complementary value to outcome supervision, significantly enhancing test-time scaling. We hope AgentProcessBench can foster future research in reward models and pave the way toward general agents. The code and data are available at https://github.com/RUCBM/AgentProcessBench.
PDF172March 19, 2026