AgentProcessBench : Diagnostic de la qualité des processus étape par étape chez les agents utilisant des outils

Résumé

Si les grands modèles de langage (LLM) ont évolué pour devenir des agents utilisant des outils, ils restent fragiles dans les interactions à long terme. Contrairement au raisonnement mathématique où les erreurs sont souvent rectifiables par retour arrière, les échecs d'utilisation d'outils provoquent fréquemment des effets secondaires irréversibles, rendant une vérification précise au niveau des étapes cruciale. Cependant, les benchmarks existants au niveau processus se limitent principalement à des domaines mathématiques en monde clos, ne parvenant pas à capturer la nature dynamique et ouverte de l'exécution d'outils. Pour combler cette lacune, nous présentons AgentProcessBench, le premier benchmark dédié à évaluer l'efficacité au niveau des étapes dans des trajectoires réalistes augmentées par outils. Le benchmark comprend 1 000 trajectoires diverses et 8 509 annotations d'étapes étiquetées manuellement avec un accord inter-annotateurs de 89,1 %. Il propose un schéma d'étiquetage ternaire pour capturer l'exploration et une règle de propagation d'erreur pour réduire l'ambiguïté de l'étiquetage. Des expériences approfondies révèlent des insights clés : (1) les modèles de politique plus faibles présentent des ratios gonflés d'étapes correctes en raison d'une terminaison précoce ; (2) distinguer les actions neutres et erronées reste un défi significatif pour les modèles actuels ; et (3) les signaux dérivés du processus apportent une valeur complémentaire à la supervision par résultat, améliorant significativement la mise à l'échelle au moment du test. Nous espérons qu'AgentProcessBench pourra favoriser les futures recherches sur les modèles de récompense et ouvrir la voie vers des agents généraux. Le code et les données sont disponibles à l'adresse https://github.com/RUCBM/AgentProcessBench.

English

While Large Language Models (LLMs) have evolved into tool-using agents, they remain brittle in long-horizon interactions. Unlike mathematical reasoning where errors are often rectifiable via backtracking, tool-use failures frequently induce irreversible side effects, making accurate step-level verification critical. However, existing process-level benchmarks are predominantly confined to closed-world mathematical domains, failing to capture the dynamic and open-ended nature of tool execution. To bridge this gap, we introduce AgentProcessBench, the first benchmark dedicated to evaluating step-level effectiveness in realistic, tool-augmented trajectories. The benchmark comprises 1,000 diverse trajectories and 8,509 human-labeled step annotations with 89.1% inter-annotator agreement. It features a ternary labeling scheme to capture exploration and an error propagation rule to reduce labeling ambiguity. Extensive experiments reveal key insights: (1) weaker policy models exhibit inflated ratios of correct steps due to early termination; (2) distinguishing neutral and erroneous actions remains a significant challenge for current models; and (3) process-derived signals provide complementary value to outcome supervision, significantly enhancing test-time scaling. We hope AgentProcessBench can foster future research in reward models and pave the way toward general agents. The code and data are available at https://github.com/RUCBM/AgentProcessBench.

AgentProcessBench : Diagnostic de la qualité des processus étape par étape chez les agents utilisant des outils

AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents

Résumé

Support