AssistantBench: Kunnen webagents realistische en tijdrovende taken oplossen?
AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks?
July 22, 2024
Auteurs: Ori Yoran, Samuel Joseph Amouyal, Chaitanya Malaviya, Ben Bogin, Ofir Press, Jonathan Berant
cs.AI
Samenvatting
Taalagentschappen, gebouwd bovenop taalmmodellen (LMs), zijn systemen die kunnen interageren met complexe omgevingen, zoals het open web. In dit werk onderzoeken we of dergelijke agentschappen realistische en tijdrovende taken op het web kunnen uitvoeren, zoals het monitoren van vastgoedmarkten of het lokaliseren van relevante bedrijven in de buurt. We introduceren AssistantBench, een uitdagende nieuwe benchmark bestaande uit 214 realistische taken die automatisch kunnen worden geëvalueerd, en die verschillende scenario's en domeinen bestrijkt. We constateren dat AssistantBench de beperkingen van huidige systemen blootlegt, inclusief taalmmodellen en retrieval-augmented taalmmodellen, aangezien geen enkel model een nauwkeurigheid van meer dan 25 punten bereikt. Hoewel closed-book LMs goed presteren, vertonen ze een lage precisie omdat ze geneigd zijn feiten te hallucineren. State-of-the-art webagentschappen bereiken een score van bijna nul. Daarnaast introduceren we SeePlanAct (SPA), een nieuw webagentschap dat aanzienlijk beter presteert dan eerdere agentschappen, en een ensemble van SPA en closed-book modellen bereikt de beste algehele prestaties. Bovendien analyseren we de tekortkomingen van huidige systemen en benadrukken we dat webnavigatie een grote uitdaging blijft.
English
Language agents, built on top of language models (LMs), are systems that can
interact with complex environments, such as the open web. In this work, we
examine whether such agents can perform realistic and time-consuming tasks on
the web, e.g., monitoring real-estate markets or locating relevant nearby
businesses. We introduce AssistantBench, a challenging new benchmark consisting
of 214 realistic tasks that can be automatically evaluated, covering different
scenarios and domains. We find that AssistantBench exposes the limitations of
current systems, including language models and retrieval-augmented language
models, as no model reaches an accuracy of more than 25 points. While
closed-book LMs perform well, they exhibit low precision since they tend to
hallucinate facts. State-of-the-art web agents reach a score of near zero.
Additionally, we introduce SeePlanAct (SPA), a new web agent that significantly
outperforms previous agents, and an ensemble of SPA and closed-book models
reaches the best overall performance. Moreover, we analyze failures of current
systems and highlight that web navigation remains a major challenge.