AgentRewardBench: Avaliando Avaliações Automáticas de Trajetórias de Agentes Web
AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories
April 11, 2025
Autores: Xing Han Lù, Amirhossein Kazemnejad, Nicholas Meade, Arkil Patel, Dongchan Shin, Alejandra Zambrano, Karolina Stańczak, Peter Shaw, Christopher J. Pal, Siva Reddy
cs.AI
Resumo
Agentes web permitem que os usuários realizem tarefas em navegadores por meio de interação em linguagem natural. Avaliar as trajetórias de agentes web é um problema importante, pois nos ajuda a determinar se o agente concluiu as tarefas com sucesso. Métodos baseados em regras são amplamente utilizados para esse fim, mas são difíceis de estender para novas tarefas e nem sempre reconhecem trajetórias bem-sucedidas. Podemos obter maior precisão por meio de avaliação humana, mas o processo seria substancialmente mais lento e caro. Avaliações automáticas com LLMs podem evitar os desafios de criar novas regras e anotar trajetórias manualmente, permitindo uma avaliação mais rápida e econômica. No entanto, não está claro o quão eficazes elas são na avaliação de agentes web. Para isso, propomos o AgentRewardBench, o primeiro benchmark para avaliar a eficácia de juízes LLM na avaliação de agentes web. O AgentRewardBench contém 1302 trajetórias em 5 benchmarks e 4 LLMs. Cada trajetória no AgentRewardBench é revisada por um especialista, que responde a perguntas sobre o sucesso, efeitos colaterais e repetitividade do agente. Usando nosso benchmark, avaliamos 12 juízes LLM e descobrimos que nenhum LLM se destaca em todos os benchmarks. Também observamos que a avaliação baseada em regras usada por benchmarks comuns tende a subestimar a taxa de sucesso dos agentes web, destacando uma fraqueza fundamental da avaliação baseada em regras e a necessidade de desenvolver avaliações automáticas mais flexíveis. Disponibilizamos o benchmark em: https://agent-reward-bench.github.io
English
Web agents enable users to perform tasks on web browsers through natural
language interaction. Evaluating web agents trajectories is an important
problem, since it helps us determine whether the agent successfully completed
the tasks. Rule-based methods are widely used for this purpose, but they are
challenging to extend to new tasks and may not always recognize successful
trajectories. We may achieve higher accuracy through human evaluation, but the
process would be substantially slower and more expensive. Automatic evaluations
with LLMs may avoid the challenges of designing new rules and manually
annotating trajectories, enabling faster and cost-effective evaluation.
However, it is unclear how effective they are at evaluating web agents. To this
end, we propose AgentRewardBench, the first benchmark to assess the
effectiveness of LLM judges for evaluating web agents. AgentRewardBench
contains 1302 trajectories across 5 benchmarks and 4 LLMs. Each trajectory in
AgentRewardBench is reviewed by an expert, who answers questions pertaining to
the success, side effects, and repetitiveness of the agent. Using our
benchmark, we evaluate 12 LLM judges and find that no single LLM excels across
all benchmarks. We also find that the rule-based evaluation used by common
benchmarks tends to underreport the success rate of web agents, highlighting a
key weakness of rule-based evaluation and the need to develop more flexible
automatic evaluations. We release the benchmark at:
https://agent-reward-bench.github.ioSummary
AI-Generated Summary