AgentProcessBench: Diagnosticando a Qualidade do Processo em Nível de Etapa em Agentes com Uso de Ferramentas

Resumo

Embora os Modelos de Linguagem de Grande Porte (LLMs) tenham evoluído para agentes que utilizam ferramentas, eles permanecem frágeis em interações de longo prazo. Diferente do raciocínio matemático, onde os erros são frequentemente corrigíveis por meio de retrocesso, falhas no uso de ferramentas frequentemente induzem efeitos colaterais irreversíveis, tornando a verificação precisa a nível de etapa crítica. No entanto, os benchmarks existentes a nível de processo estão predominantemente confinados a domínios matemáticos de mundo fechado, falhando em capturar a natureza dinâmica e aberta da execução de ferramentas. Para preencher esta lacuna, introduzimos o AgentProcessBench, o primeiro benchmark dedicado a avaliar a eficácia a nível de etapa em trajetórias realistas aumentadas por ferramentas. O benchmark compreende 1.000 trajetórias diversas e 8.509 anotações de etapa rotuladas manualmente, com 89,1% de concordância entre anotadores. Ele apresenta um esquema de rotulagem ternária para capturar a exploração e uma regra de propagação de erro para reduzir a ambiguidade de rotulagem. Experimentos extensivos revelam insights-chave: (1) modelos de política mais fracos exibem proporções infladas de etapas corretas devido à terminação precoce; (2) distinguir ações neutras e errôneas permanece um desafio significativo para os modelos atuais; e (3) sinais derivados do processo fornecem valor complementar à supervisão por resultado, melhorando significativamente a escalabilidade em tempo de teste. Esperamos que o AgentProcessBench possa fomentar pesquisas futuras em modelos de recompensa e pavimentar o caminho para agentes gerais. O código e os dados estão disponíveis em https://github.com/RUCBM/AgentProcessBench.

English

While Large Language Models (LLMs) have evolved into tool-using agents, they remain brittle in long-horizon interactions. Unlike mathematical reasoning where errors are often rectifiable via backtracking, tool-use failures frequently induce irreversible side effects, making accurate step-level verification critical. However, existing process-level benchmarks are predominantly confined to closed-world mathematical domains, failing to capture the dynamic and open-ended nature of tool execution. To bridge this gap, we introduce AgentProcessBench, the first benchmark dedicated to evaluating step-level effectiveness in realistic, tool-augmented trajectories. The benchmark comprises 1,000 diverse trajectories and 8,509 human-labeled step annotations with 89.1% inter-annotator agreement. It features a ternary labeling scheme to capture exploration and an error propagation rule to reduce labeling ambiguity. Extensive experiments reveal key insights: (1) weaker policy models exhibit inflated ratios of correct steps due to early termination; (2) distinguishing neutral and erroneous actions remains a significant challenge for current models; and (3) process-derived signals provide complementary value to outcome supervision, significantly enhancing test-time scaling. We hope AgentProcessBench can foster future research in reward models and pave the way toward general agents. The code and data are available at https://github.com/RUCBM/AgentProcessBench.

AgentProcessBench: Diagnosticando a Qualidade do Processo em Nível de Etapa em Agentes com Uso de Ferramentas

AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents

Resumo

Support