ChatPaper.aiChatPaper

AgentRewardBench: Evaluación de Métricas Automáticas para Trayectorias de Agentes Web

AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories

April 11, 2025
Autores: Xing Han Lù, Amirhossein Kazemnejad, Nicholas Meade, Arkil Patel, Dongchan Shin, Alejandra Zambrano, Karolina Stańczak, Peter Shaw, Christopher J. Pal, Siva Reddy
cs.AI

Resumen

Los agentes web permiten a los usuarios realizar tareas en navegadores web mediante interacción en lenguaje natural. Evaluar las trayectorias de los agentes web es un problema importante, ya que nos ayuda a determinar si el agente completó con éxito las tareas. Los métodos basados en reglas son ampliamente utilizados para este propósito, pero son difíciles de extender a nuevas tareas y no siempre reconocen trayectorias exitosas. Podríamos lograr una mayor precisión mediante la evaluación humana, pero el proceso sería sustancialmente más lento y costoso. Las evaluaciones automáticas con LLMs podrían evitar los desafíos de diseñar nuevas reglas y anotar manualmente las trayectorias, permitiendo una evaluación más rápida y rentable. Sin embargo, no está claro cuán efectivas son para evaluar agentes web. Con este fin, proponemos AgentRewardBench, el primer benchmark para evaluar la efectividad de los jueces LLM en la evaluación de agentes web. AgentRewardBench contiene 1302 trayectorias en 5 benchmarks y 4 LLMs. Cada trayectoria en AgentRewardBench es revisada por un experto, quien responde preguntas relacionadas con el éxito, los efectos secundarios y la repetitividad del agente. Utilizando nuestro benchmark, evaluamos 12 jueces LLM y encontramos que ningún LLM sobresale en todos los benchmarks. También encontramos que la evaluación basada en reglas utilizada por los benchmarks comunes tiende a subreportar la tasa de éxito de los agentes web, destacando una debilidad clave de la evaluación basada en reglas y la necesidad de desarrollar evaluaciones automáticas más flexibles. Publicamos el benchmark en: https://agent-reward-bench.github.io
English
Web agents enable users to perform tasks on web browsers through natural language interaction. Evaluating web agents trajectories is an important problem, since it helps us determine whether the agent successfully completed the tasks. Rule-based methods are widely used for this purpose, but they are challenging to extend to new tasks and may not always recognize successful trajectories. We may achieve higher accuracy through human evaluation, but the process would be substantially slower and more expensive. Automatic evaluations with LLMs may avoid the challenges of designing new rules and manually annotating trajectories, enabling faster and cost-effective evaluation. However, it is unclear how effective they are at evaluating web agents. To this end, we propose AgentRewardBench, the first benchmark to assess the effectiveness of LLM judges for evaluating web agents. AgentRewardBench contains 1302 trajectories across 5 benchmarks and 4 LLMs. Each trajectory in AgentRewardBench is reviewed by an expert, who answers questions pertaining to the success, side effects, and repetitiveness of the agent. Using our benchmark, we evaluate 12 LLM judges and find that no single LLM excels across all benchmarks. We also find that the rule-based evaluation used by common benchmarks tends to underreport the success rate of web agents, highlighting a key weakness of rule-based evaluation and the need to develop more flexible automatic evaluations. We release the benchmark at: https://agent-reward-bench.github.io

Summary

AI-Generated Summary

PDF272April 15, 2025