AgentProcessBench: Diagnóstico de la Calidad del Proceso a Nivel de Paso en Agentes que Utilizan Herramientas

Resumen

Si bien los modelos de lenguaje grande (LLM) han evolucionado hasta convertirse en agentes que utilizan herramientas, siguen siendo frágiles en interacciones de largo horizonte. A diferencia del razonamiento matemático, donde los errores a menudo son rectificables mediante retroceso, los fallos en el uso de herramientas frecuentemente inducen efectos secundarios irreversibles, lo que hace que la verificación precisa a nivel de paso sea crítica. Sin embargo, los puntos de referencia existentes a nivel de proceso se limitan predominantemente a dominios matemáticos de mundo cerrado, sin capturar la naturaleza dinámica y abierta de la ejecución de herramientas. Para cerrar esta brecha, presentamos AgentProcessBench, el primer punto de referencia dedicado a evaluar la efectividad a nivel de paso en trayectorias realistas aumentadas con herramientas. El benchmark comprende 1,000 trayectorias diversas y 8,509 anotaciones de pasos etiquetadas por humanos con un 89.1% de acuerdo inter-anotadores. Presenta un esquema de etiquetado ternario para capturar la exploración y una regla de propagación de errores para reducir la ambigüedad en el etiquetado. Experimentos extensos revelan hallazgos clave: (1) los modelos de política más débiles exhiben ratios inflados de pasos correctos debido a una terminación anticipada; (2) distinguir entre acciones neutrales y erróneas sigue siendo un desafío significativo para los modelos actuales; y (3) las señales derivadas del proceso aportan un valor complementario a la supervisión por resultados, mejorando significativamente la escalabilidad en tiempo de prueba. Esperamos que AgentProcessBench pueda impulsar futuras investigaciones en modelos de recompensa y allanar el camino hacia agentes generales. El código y los datos están disponibles en https://github.com/RUCBM/AgentProcessBench.

English

While Large Language Models (LLMs) have evolved into tool-using agents, they remain brittle in long-horizon interactions. Unlike mathematical reasoning where errors are often rectifiable via backtracking, tool-use failures frequently induce irreversible side effects, making accurate step-level verification critical. However, existing process-level benchmarks are predominantly confined to closed-world mathematical domains, failing to capture the dynamic and open-ended nature of tool execution. To bridge this gap, we introduce AgentProcessBench, the first benchmark dedicated to evaluating step-level effectiveness in realistic, tool-augmented trajectories. The benchmark comprises 1,000 diverse trajectories and 8,509 human-labeled step annotations with 89.1% inter-annotator agreement. It features a ternary labeling scheme to capture exploration and an error propagation rule to reduce labeling ambiguity. Extensive experiments reveal key insights: (1) weaker policy models exhibit inflated ratios of correct steps due to early termination; (2) distinguishing neutral and erroneous actions remains a significant challenge for current models; and (3) process-derived signals provide complementary value to outcome supervision, significantly enhancing test-time scaling. We hope AgentProcessBench can foster future research in reward models and pave the way toward general agents. The code and data are available at https://github.com/RUCBM/AgentProcessBench.

AgentProcessBench: Diagnóstico de la Calidad del Proceso a Nivel de Paso en Agentes que Utilizan Herramientas

AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents

Resumen

Support