AgentProcessBench: Diagnostica della Qualità dei Processi a Livello di Step negli Agenti con Utilizzo di Strumenti

Abstract

Mentre i Large Language Model (LLM) si sono evoluti in agenti capaci di utilizzare strumenti, rimangono fragili nelle interazioni a lungo termine. A differenza del ragionamento matematico, dove gli errori sono spesso correggibili tramite backtracking, i fallimenti nell'uso degli strumenti frequentemente inducono effetti collaterali irreversibili, rendendo critica una verifica accurata a livello di singolo passo. Tuttavia, i benchmark esistenti a livello di processo sono prevalentemente confinati a domini matematici di tipo "mondo chiuso", non riuscendo a catturare la natura dinamica e aperta dell'esecuzione di strumenti. Per colmare questa lacuna, introduciamo AgentProcessBench, il primo benchmark dedicato a valutare l'efficacia a livello di passo in traiettorie realistiche, aumentate da strumenti. Il benchmark comprende 1.000 traiettorie diverse e 8.509 annotazioni di passi etichettate manualmente, con un accordo tra annotatori dell'89.1%. Presenta uno schema di etichettatura ternario per catturare l'esplorazione e una regola di propagazione dell'errore per ridurre l'ambiguità dell'etichettatura. Esperimenti estensivi rivelano intuizioni chiave: (1) modelli di policy più deboli mostrano rapporti inflazionati di passi corretti a causa di terminazioni anticipate; (2) distinguere azioni neutre ed errate rimane una sfida significativa per i modelli attuali; e (3) i segnali derivati dal processo forniscono un valore complementare alla supervisione basata sul risultato, migliorando significativamente la scalabilità durante il test. Speriamo che AgentProcessBench possa favorire future ricerche sui modelli di reward e aprire la strada verso agenti generali. Il codice e i dati sono disponibili su https://github.com/RUCBM/AgentProcessBench.

English

While Large Language Models (LLMs) have evolved into tool-using agents, they remain brittle in long-horizon interactions. Unlike mathematical reasoning where errors are often rectifiable via backtracking, tool-use failures frequently induce irreversible side effects, making accurate step-level verification critical. However, existing process-level benchmarks are predominantly confined to closed-world mathematical domains, failing to capture the dynamic and open-ended nature of tool execution. To bridge this gap, we introduce AgentProcessBench, the first benchmark dedicated to evaluating step-level effectiveness in realistic, tool-augmented trajectories. The benchmark comprises 1,000 diverse trajectories and 8,509 human-labeled step annotations with 89.1% inter-annotator agreement. It features a ternary labeling scheme to capture exploration and an error propagation rule to reduce labeling ambiguity. Extensive experiments reveal key insights: (1) weaker policy models exhibit inflated ratios of correct steps due to early termination; (2) distinguishing neutral and erroneous actions remains a significant challenge for current models; and (3) process-derived signals provide complementary value to outcome supervision, significantly enhancing test-time scaling. We hope AgentProcessBench can foster future research in reward models and pave the way toward general agents. The code and data are available at https://github.com/RUCBM/AgentProcessBench.

AgentProcessBench: Diagnostica della Qualità dei Processi a Livello di Step negli Agenti con Utilizzo di Strumenti

AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents

Abstract

Support