AgentRewardBench: Bewertung automatischer Evaluierungen von Web-Agenten-Trajektorien
AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories
April 11, 2025
Autoren: Xing Han Lù, Amirhossein Kazemnejad, Nicholas Meade, Arkil Patel, Dongchan Shin, Alejandra Zambrano, Karolina Stańczak, Peter Shaw, Christopher J. Pal, Siva Reddy
cs.AI
Zusammenfassung
Web-Agents ermöglichen es Nutzern, Aufgaben in Webbrowsern durch natürliche Sprachinteraktion auszuführen. Die Bewertung der Trajektorien von Web-Agents ist ein wichtiges Problem, da sie uns hilft zu bestimmen, ob der Agent die Aufgaben erfolgreich abgeschlossen hat. Regelbasierte Methoden werden hierfür häufig eingesetzt, sind jedoch schwierig auf neue Aufgaben zu erweitern und erkennen möglicherweise nicht immer erfolgreiche Trajektorien. Eine höhere Genauigkeit könnte durch menschliche Bewertung erreicht werden, aber dieser Prozess wäre deutlich langsamer und teurer. Automatische Bewertungen mit LLMs könnten die Herausforderungen bei der Entwicklung neuer Regeln und der manuellen Annotation von Trajektorien umgehen und so eine schnellere und kosteneffiziente Bewertung ermöglichen. Es ist jedoch unklar, wie effektiv sie bei der Bewertung von Web-Agents sind. Zu diesem Zweck schlagen wir AgentRewardBench vor, den ersten Benchmark zur Bewertung der Effektivität von LLM-Richtern für Web-Agents. AgentRewardBench enthält 1302 Trajektorien über 5 Benchmarks und 4 LLMs hinweg. Jede Trajektorie in AgentRewardBench wird von einem Experten überprüft, der Fragen zum Erfolg, zu Nebenwirkungen und zur Wiederholung des Agents beantwortet. Mit unserem Benchmark bewerten wir 12 LLM-Richter und stellen fest, dass kein einzelner LLM in allen Benchmarks hervorragt. Wir stellen außerdem fest, dass die regelbasierte Bewertung, die von gängigen Benchmarks verwendet wird, dazu neigt, die Erfolgsrate von Web-Agents zu unterschätzen, was eine zentrale Schwäche der regelbasierten Bewertung und die Notwendigkeit zur Entwicklung flexiblerer automatischer Bewertungen aufzeigt. Wir veröffentlichen den Benchmark unter: https://agent-reward-bench.github.io.
English
Web agents enable users to perform tasks on web browsers through natural
language interaction. Evaluating web agents trajectories is an important
problem, since it helps us determine whether the agent successfully completed
the tasks. Rule-based methods are widely used for this purpose, but they are
challenging to extend to new tasks and may not always recognize successful
trajectories. We may achieve higher accuracy through human evaluation, but the
process would be substantially slower and more expensive. Automatic evaluations
with LLMs may avoid the challenges of designing new rules and manually
annotating trajectories, enabling faster and cost-effective evaluation.
However, it is unclear how effective they are at evaluating web agents. To this
end, we propose AgentRewardBench, the first benchmark to assess the
effectiveness of LLM judges for evaluating web agents. AgentRewardBench
contains 1302 trajectories across 5 benchmarks and 4 LLMs. Each trajectory in
AgentRewardBench is reviewed by an expert, who answers questions pertaining to
the success, side effects, and repetitiveness of the agent. Using our
benchmark, we evaluate 12 LLM judges and find that no single LLM excels across
all benchmarks. We also find that the rule-based evaluation used by common
benchmarks tends to underreport the success rate of web agents, highlighting a
key weakness of rule-based evaluation and the need to develop more flexible
automatic evaluations. We release the benchmark at:
https://agent-reward-bench.github.ioSummary
AI-Generated Summary