AgentProcessBench: Diagnose der schrittweisen Prozessqualität in werkzeugnutzenden Agenten

Zusammenfassung

Während sich große Sprachmodelle (LLMs) zu werkzeugnutzenden Agenten entwickelt haben, bleiben sie in langfristigen Interaktionen anfällig. Im Gegensatz zum mathematischen Denken, bei dem Fehler oft durch Backtracking korrigierbar sind, führen Werkzeugnutzungsfehler häufig zu irreversiblen Nebeneffekten, was eine genaue verfahrensschrittbezogene Verifikation kritisch macht. Bisherige prozessorientierte Benchmarks sind jedoch überwiegend auf geschlossene mathematische Domänen beschränkt und erfassen nicht die dynamische und offene Natur der Werkzeugausführung. Um diese Lücke zu schließen, stellen wir AgentProcessBench vor, den ersten Benchmark, der sich der Bewertung der Schrittwirksamkeit in realistischen, werkzeuggestützten Trajektorien widmet. Der Benchmark umfasst 1.000 diverse Trajektorien und 8.509 menschlich annotierte Schrittanleitungen mit einer Inter-Annotator-Übereinstimmung von 89,1%. Er zeichnet sich durch ein ternäres Labeling-Schema zur Erfassung von Exploration und eine Fehlerfortpflanzungsregel zur Reduzierung von Labeling-Unschärfen aus. Umfangreiche Experimente zeigen zentrale Erkenntnisse: (1) Schwächere Policy-Modelle weisen aufgrund vorzeitigen Abbruchs aufgeblähte Anteile korrekter Schritte auf; (2) Die Unterscheidung zwischen neutralen und fehlerhaften Aktionen bleibt eine große Herausforderung für aktuelle Modelle; und (3) Prozessbasierte Signale bieten komplementären Wert zur Ergebnisüberwachung und verbessern die Skalierung zur Testzeit erheblich. Wir hoffen, dass AgentProcessBench zukünftige Forschung zu Belohnungsmodellen fördert und den Weg zu allgemeinen Agenten ebnet. Der Code und die Daten sind unter https://github.com/RUCBM/AgentProcessBench verfügbar.

English

While Large Language Models (LLMs) have evolved into tool-using agents, they remain brittle in long-horizon interactions. Unlike mathematical reasoning where errors are often rectifiable via backtracking, tool-use failures frequently induce irreversible side effects, making accurate step-level verification critical. However, existing process-level benchmarks are predominantly confined to closed-world mathematical domains, failing to capture the dynamic and open-ended nature of tool execution. To bridge this gap, we introduce AgentProcessBench, the first benchmark dedicated to evaluating step-level effectiveness in realistic, tool-augmented trajectories. The benchmark comprises 1,000 diverse trajectories and 8,509 human-labeled step annotations with 89.1% inter-annotator agreement. It features a ternary labeling scheme to capture exploration and an error propagation rule to reduce labeling ambiguity. Extensive experiments reveal key insights: (1) weaker policy models exhibit inflated ratios of correct steps due to early termination; (2) distinguishing neutral and erroneous actions remains a significant challenge for current models; and (3) process-derived signals provide complementary value to outcome supervision, significantly enhancing test-time scaling. We hope AgentProcessBench can foster future research in reward models and pave the way toward general agents. The code and data are available at https://github.com/RUCBM/AgentProcessBench.

AgentProcessBench: Diagnose der schrittweisen Prozessqualität in werkzeugnutzenden Agenten

AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents

Zusammenfassung

Support