AgentProcessBench: Diagnose van Stapgewijze Proceskwaliteit bij Gereedschapgebruikende Agenten

Samenvatting

Hoewel Large Language Models (LLM's) zijn geëvolueerd tot agenten die tools gebruiken, blijven ze broos in interacties op de lange termijn. In tegenstelling tot wiskundig redeneren, waar fouten vaak herstelbaar zijn via backtracking, veroorzaken mislukkingen in toolgebruik vaak onomkeerbare neveneffecten, waardoor nauwkeurige verificatie op stapniveau cruciaal is. Bestaande benchmarks op procesniveau zijn echter voornamelijk beperkt tot gesloten wiskundige domeinen, waardoor ze het dynamische en open-einde karakter van tooluitvoering niet vangen. Om deze kloof te overbruggen, introduceren wij AgentProcessBench, de eerste benchmark die specifiek is ontworpen om de effectiviteit op stapniveau te evalueren in realistische, met tools verrijkte trajecten. De benchmark omvat 1.000 diverse trajecten en 8.509 door mensen gelabelde stapannotaties met een interbeoordelaarsbetrouwbaarheid van 89,1%. Hij kenmerkt zich door een ternair labelschema om exploratie vast te leggen en een regel voor foutpropagatie om labelambiguïteit te verminderen. Uitgebreide experimenten onthullen belangrijke inzichten: (1) zwakkere beleidsmodellen vertonen opgeblazen ratios van correcte stappen door vroegtijdige beëindiging; (2) het onderscheiden van neutrale en foutieve acties blijft een significante uitdaging voor huidige modellen; en (3) van processen afgeleide signalen bieden complementaire waarde ten opzichte van resultaatsupervisie, waardoor testtime-schaling aanzienlijk wordt verbeterd. Wij hopen dat AgentProcessBench toekomstig onderzoek naar beloningsmodellen kan stimuleren en de weg kan effenen naar algemene agenten. De code en gegevens zijn beschikbaar op https://github.com/RUCBM/AgentProcessBench.

English

While Large Language Models (LLMs) have evolved into tool-using agents, they remain brittle in long-horizon interactions. Unlike mathematical reasoning where errors are often rectifiable via backtracking, tool-use failures frequently induce irreversible side effects, making accurate step-level verification critical. However, existing process-level benchmarks are predominantly confined to closed-world mathematical domains, failing to capture the dynamic and open-ended nature of tool execution. To bridge this gap, we introduce AgentProcessBench, the first benchmark dedicated to evaluating step-level effectiveness in realistic, tool-augmented trajectories. The benchmark comprises 1,000 diverse trajectories and 8,509 human-labeled step annotations with 89.1% inter-annotator agreement. It features a ternary labeling scheme to capture exploration and an error propagation rule to reduce labeling ambiguity. Extensive experiments reveal key insights: (1) weaker policy models exhibit inflated ratios of correct steps due to early termination; (2) distinguishing neutral and erroneous actions remains a significant challenge for current models; and (3) process-derived signals provide complementary value to outcome supervision, significantly enhancing test-time scaling. We hope AgentProcessBench can foster future research in reward models and pave the way toward general agents. The code and data are available at https://github.com/RUCBM/AgentProcessBench.

AgentProcessBench: Diagnose van Stapgewijze Proceskwaliteit bij Gereedschapgebruikende Agenten

AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents

Samenvatting

Support