AssistantBench: Kunnen webagents realistische en tijdrovende taken oplossen?

Samenvatting

Taalagentschappen, gebouwd bovenop taalmmodellen (LMs), zijn systemen die kunnen interageren met complexe omgevingen, zoals het open web. In dit werk onderzoeken we of dergelijke agentschappen realistische en tijdrovende taken op het web kunnen uitvoeren, zoals het monitoren van vastgoedmarkten of het lokaliseren van relevante bedrijven in de buurt. We introduceren AssistantBench, een uitdagende nieuwe benchmark bestaande uit 214 realistische taken die automatisch kunnen worden geëvalueerd, en die verschillende scenario's en domeinen bestrijkt. We constateren dat AssistantBench de beperkingen van huidige systemen blootlegt, inclusief taalmmodellen en retrieval-augmented taalmmodellen, aangezien geen enkel model een nauwkeurigheid van meer dan 25 punten bereikt. Hoewel closed-book LMs goed presteren, vertonen ze een lage precisie omdat ze geneigd zijn feiten te hallucineren. State-of-the-art webagentschappen bereiken een score van bijna nul. Daarnaast introduceren we SeePlanAct (SPA), een nieuw webagentschap dat aanzienlijk beter presteert dan eerdere agentschappen, en een ensemble van SPA en closed-book modellen bereikt de beste algehele prestaties. Bovendien analyseren we de tekortkomingen van huidige systemen en benadrukken we dat webnavigatie een grote uitdaging blijft.

English

Language agents, built on top of language models (LMs), are systems that can interact with complex environments, such as the open web. In this work, we examine whether such agents can perform realistic and time-consuming tasks on the web, e.g., monitoring real-estate markets or locating relevant nearby businesses. We introduce AssistantBench, a challenging new benchmark consisting of 214 realistic tasks that can be automatically evaluated, covering different scenarios and domains. We find that AssistantBench exposes the limitations of current systems, including language models and retrieval-augmented language models, as no model reaches an accuracy of more than 25 points. While closed-book LMs perform well, they exhibit low precision since they tend to hallucinate facts. State-of-the-art web agents reach a score of near zero. Additionally, we introduce SeePlanAct (SPA), a new web agent that significantly outperforms previous agents, and an ensemble of SPA and closed-book models reaches the best overall performance. Moreover, we analyze failures of current systems and highlight that web navigation remains a major challenge.

AssistantBench: Kunnen webagents realistische en tijdrovende taken oplossen?

AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks?

Samenvatting

Support