AssistantBench: Können Web-Agenten realistische und zeitaufwändige Aufgaben lösen?
AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks?
July 22, 2024
Autoren: Ori Yoran, Samuel Joseph Amouyal, Chaitanya Malaviya, Ben Bogin, Ofir Press, Jonathan Berant
cs.AI
Zusammenfassung
Sprachagenten, die auf Sprachmodellen (LMs) aufbauen, sind Systeme, die mit komplexen Umgebungen interagieren können, wie zum Beispiel dem offenen Web. In dieser Arbeit untersuchen wir, ob solche Agenten realistische und zeitaufwändige Aufgaben im Web ausführen können, z. B. die Überwachung von Immobilienmärkten oder die Lokalisierung relevanter nahegelegener Unternehmen. Wir stellen AssistantBench vor, einen anspruchsvollen neuen Benchmark, der aus 214 realistischen Aufgaben besteht, die automatisch bewertet werden können und verschiedene Szenarien und Domänen abdecken. Wir stellen fest, dass AssistantBench die Grenzen aktueller Systeme aufzeigt, einschließlich Sprachmodellen und abrufgestützten Sprachmodellen, da kein Modell eine Genauigkeit von mehr als 25 Punkten erreicht. Obwohl geschlossene LMs gut abschneiden, weisen sie eine geringe Präzision auf, da sie dazu neigen, Fakten zu halluzinieren. Modernste Web-Agenten erreichen einen Score nahe Null. Darüber hinaus stellen wir SeePlanAct (SPA) vor, einen neuen Web-Agenten, der signifikant besser abschneidet als frühere Agenten, und ein Ensemble aus SPA und geschlossenen Modellen erzielt die beste Gesamtleistung. Darüber hinaus analysieren wir die Fehler aktueller Systeme und heben hervor, dass die Navigation im Web nach wie vor eine große Herausforderung darstellt.
English
Language agents, built on top of language models (LMs), are systems that can
interact with complex environments, such as the open web. In this work, we
examine whether such agents can perform realistic and time-consuming tasks on
the web, e.g., monitoring real-estate markets or locating relevant nearby
businesses. We introduce AssistantBench, a challenging new benchmark consisting
of 214 realistic tasks that can be automatically evaluated, covering different
scenarios and domains. We find that AssistantBench exposes the limitations of
current systems, including language models and retrieval-augmented language
models, as no model reaches an accuracy of more than 25 points. While
closed-book LMs perform well, they exhibit low precision since they tend to
hallucinate facts. State-of-the-art web agents reach a score of near zero.
Additionally, we introduce SeePlanAct (SPA), a new web agent that significantly
outperforms previous agents, and an ensemble of SPA and closed-book models
reaches the best overall performance. Moreover, we analyze failures of current
systems and highlight that web navigation remains a major challenge.Summary
AI-Generated Summary