ChatPaper.aiChatPaper

AgentRewardBench: Bewertung automatischer Evaluierungen von Web-Agenten-Trajektorien

AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories

April 11, 2025
Autoren: Xing Han Lù, Amirhossein Kazemnejad, Nicholas Meade, Arkil Patel, Dongchan Shin, Alejandra Zambrano, Karolina Stańczak, Peter Shaw, Christopher J. Pal, Siva Reddy
cs.AI

Zusammenfassung

Web-Agents ermöglichen es Nutzern, Aufgaben in Webbrowsern durch natürliche Sprachinteraktion auszuführen. Die Bewertung der Trajektorien von Web-Agents ist ein wichtiges Problem, da sie uns hilft zu bestimmen, ob der Agent die Aufgaben erfolgreich abgeschlossen hat. Regelbasierte Methoden werden hierfür häufig eingesetzt, sind jedoch schwierig auf neue Aufgaben zu erweitern und erkennen möglicherweise nicht immer erfolgreiche Trajektorien. Eine höhere Genauigkeit könnte durch menschliche Bewertung erreicht werden, aber dieser Prozess wäre deutlich langsamer und teurer. Automatische Bewertungen mit LLMs könnten die Herausforderungen bei der Entwicklung neuer Regeln und der manuellen Annotation von Trajektorien umgehen und so eine schnellere und kosteneffiziente Bewertung ermöglichen. Es ist jedoch unklar, wie effektiv sie bei der Bewertung von Web-Agents sind. Zu diesem Zweck schlagen wir AgentRewardBench vor, den ersten Benchmark zur Bewertung der Effektivität von LLM-Richtern für Web-Agents. AgentRewardBench enthält 1302 Trajektorien über 5 Benchmarks und 4 LLMs hinweg. Jede Trajektorie in AgentRewardBench wird von einem Experten überprüft, der Fragen zum Erfolg, zu Nebenwirkungen und zur Wiederholung des Agents beantwortet. Mit unserem Benchmark bewerten wir 12 LLM-Richter und stellen fest, dass kein einzelner LLM in allen Benchmarks hervorragt. Wir stellen außerdem fest, dass die regelbasierte Bewertung, die von gängigen Benchmarks verwendet wird, dazu neigt, die Erfolgsrate von Web-Agents zu unterschätzen, was eine zentrale Schwäche der regelbasierten Bewertung und die Notwendigkeit zur Entwicklung flexiblerer automatischer Bewertungen aufzeigt. Wir veröffentlichen den Benchmark unter: https://agent-reward-bench.github.io.
English
Web agents enable users to perform tasks on web browsers through natural language interaction. Evaluating web agents trajectories is an important problem, since it helps us determine whether the agent successfully completed the tasks. Rule-based methods are widely used for this purpose, but they are challenging to extend to new tasks and may not always recognize successful trajectories. We may achieve higher accuracy through human evaluation, but the process would be substantially slower and more expensive. Automatic evaluations with LLMs may avoid the challenges of designing new rules and manually annotating trajectories, enabling faster and cost-effective evaluation. However, it is unclear how effective they are at evaluating web agents. To this end, we propose AgentRewardBench, the first benchmark to assess the effectiveness of LLM judges for evaluating web agents. AgentRewardBench contains 1302 trajectories across 5 benchmarks and 4 LLMs. Each trajectory in AgentRewardBench is reviewed by an expert, who answers questions pertaining to the success, side effects, and repetitiveness of the agent. Using our benchmark, we evaluate 12 LLM judges and find that no single LLM excels across all benchmarks. We also find that the rule-based evaluation used by common benchmarks tends to underreport the success rate of web agents, highlighting a key weakness of rule-based evaluation and the need to develop more flexible automatic evaluations. We release the benchmark at: https://agent-reward-bench.github.io

Summary

AI-Generated Summary

PDF272April 15, 2025