ChatPaper.aiChatPaper

AgentRewardBench : Évaluation des méthodes automatiques d'évaluation des trajectoires d'agents web

AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories

April 11, 2025
Auteurs: Xing Han Lù, Amirhossein Kazemnejad, Nicholas Meade, Arkil Patel, Dongchan Shin, Alejandra Zambrano, Karolina Stańczak, Peter Shaw, Christopher J. Pal, Siva Reddy
cs.AI

Résumé

Les agents web permettent aux utilisateurs d'effectuer des tâches sur les navigateurs via des interactions en langage naturel. L'évaluation des trajectoires des agents web est un problème important, car elle nous aide à déterminer si l'agent a accompli les tâches avec succès. Les méthodes basées sur des règles sont largement utilisées à cette fin, mais elles sont difficiles à étendre à de nouvelles tâches et ne reconnaissent pas toujours les trajectoires réussies. Nous pourrions obtenir une précision plus élevée grâce à une évaluation humaine, mais le processus serait nettement plus lent et plus coûteux. Les évaluations automatiques avec des LLM pourraient éviter les difficultés liées à la conception de nouvelles règles et à l'annotation manuelle des trajectoires, permettant une évaluation plus rapide et économique. Cependant, il n'est pas clair à quel point elles sont efficaces pour évaluer les agents web. À cette fin, nous proposons AgentRewardBench, le premier benchmark pour évaluer l'efficacité des juges LLM dans l'évaluation des agents web. AgentRewardBench contient 1302 trajectoires réparties sur 5 benchmarks et 4 LLM. Chaque trajectoire dans AgentRewardBench est examinée par un expert, qui répond à des questions concernant le succès, les effets secondaires et la répétitivité de l'agent. En utilisant notre benchmark, nous évaluons 12 juges LLM et constatons qu'aucun LLM ne se distingue sur tous les benchmarks. Nous constatons également que l'évaluation basée sur des règles utilisée par les benchmarks courants a tendance à sous-estimer le taux de réussite des agents web, mettant en évidence une faiblesse clé de l'évaluation basée sur des règles et la nécessité de développer des évaluations automatiques plus flexibles. Nous publions le benchmark à l'adresse suivante : https://agent-reward-bench.github.io
English
Web agents enable users to perform tasks on web browsers through natural language interaction. Evaluating web agents trajectories is an important problem, since it helps us determine whether the agent successfully completed the tasks. Rule-based methods are widely used for this purpose, but they are challenging to extend to new tasks and may not always recognize successful trajectories. We may achieve higher accuracy through human evaluation, but the process would be substantially slower and more expensive. Automatic evaluations with LLMs may avoid the challenges of designing new rules and manually annotating trajectories, enabling faster and cost-effective evaluation. However, it is unclear how effective they are at evaluating web agents. To this end, we propose AgentRewardBench, the first benchmark to assess the effectiveness of LLM judges for evaluating web agents. AgentRewardBench contains 1302 trajectories across 5 benchmarks and 4 LLMs. Each trajectory in AgentRewardBench is reviewed by an expert, who answers questions pertaining to the success, side effects, and repetitiveness of the agent. Using our benchmark, we evaluate 12 LLM judges and find that no single LLM excels across all benchmarks. We also find that the rule-based evaluation used by common benchmarks tends to underreport the success rate of web agents, highlighting a key weakness of rule-based evaluation and the need to develop more flexible automatic evaluations. We release the benchmark at: https://agent-reward-bench.github.io

Summary

AI-Generated Summary

PDF272April 15, 2025