ChatPaper.aiChatPaper

AssistantBench: Können Web-Agenten realistische und zeitaufwändige Aufgaben lösen?

AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks?

July 22, 2024
Autoren: Ori Yoran, Samuel Joseph Amouyal, Chaitanya Malaviya, Ben Bogin, Ofir Press, Jonathan Berant
cs.AI

Zusammenfassung

Sprachagenten, die auf Sprachmodellen (LMs) aufbauen, sind Systeme, die mit komplexen Umgebungen interagieren können, wie zum Beispiel dem offenen Web. In dieser Arbeit untersuchen wir, ob solche Agenten realistische und zeitaufwändige Aufgaben im Web ausführen können, z. B. die Überwachung von Immobilienmärkten oder die Lokalisierung relevanter nahegelegener Unternehmen. Wir stellen AssistantBench vor, einen anspruchsvollen neuen Benchmark, der aus 214 realistischen Aufgaben besteht, die automatisch bewertet werden können und verschiedene Szenarien und Domänen abdecken. Wir stellen fest, dass AssistantBench die Grenzen aktueller Systeme aufzeigt, einschließlich Sprachmodellen und abrufgestützten Sprachmodellen, da kein Modell eine Genauigkeit von mehr als 25 Punkten erreicht. Obwohl geschlossene LMs gut abschneiden, weisen sie eine geringe Präzision auf, da sie dazu neigen, Fakten zu halluzinieren. Modernste Web-Agenten erreichen einen Score nahe Null. Darüber hinaus stellen wir SeePlanAct (SPA) vor, einen neuen Web-Agenten, der signifikant besser abschneidet als frühere Agenten, und ein Ensemble aus SPA und geschlossenen Modellen erzielt die beste Gesamtleistung. Darüber hinaus analysieren wir die Fehler aktueller Systeme und heben hervor, dass die Navigation im Web nach wie vor eine große Herausforderung darstellt.
English
Language agents, built on top of language models (LMs), are systems that can interact with complex environments, such as the open web. In this work, we examine whether such agents can perform realistic and time-consuming tasks on the web, e.g., monitoring real-estate markets or locating relevant nearby businesses. We introduce AssistantBench, a challenging new benchmark consisting of 214 realistic tasks that can be automatically evaluated, covering different scenarios and domains. We find that AssistantBench exposes the limitations of current systems, including language models and retrieval-augmented language models, as no model reaches an accuracy of more than 25 points. While closed-book LMs perform well, they exhibit low precision since they tend to hallucinate facts. State-of-the-art web agents reach a score of near zero. Additionally, we introduce SeePlanAct (SPA), a new web agent that significantly outperforms previous agents, and an ensemble of SPA and closed-book models reaches the best overall performance. Moreover, we analyze failures of current systems and highlight that web navigation remains a major challenge.

Summary

AI-Generated Summary

PDF94November 28, 2024