AssistantBench : Les agents web peuvent-ils résoudre des tâches réalistes et chronophages ?
AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks?
July 22, 2024
Auteurs: Ori Yoran, Samuel Joseph Amouyal, Chaitanya Malaviya, Ben Bogin, Ofir Press, Jonathan Berant
cs.AI
Résumé
Les agents linguistiques, construits à partir de modèles de langage (LMs), sont des systèmes capables d'interagir avec des environnements complexes, tels que le web ouvert. Dans ce travail, nous examinons si de tels agents peuvent accomplir des tâches réalistes et chronophages sur le web, par exemple, surveiller les marchés immobiliers ou localiser des entreprises pertinentes à proximité. Nous présentons AssistantBench, un nouveau benchmark exigeant composé de 214 tâches réalistes pouvant être évaluées automatiquement, couvrant différents scénarios et domaines. Nous constatons qu'AssistantBench révèle les limites des systèmes actuels, y compris les modèles de langage et les modèles de langage augmentés par recherche, car aucun modèle n'atteint une précision supérieure à 25 points. Bien que les LMs en mode "closed-book" performent bien, ils présentent une faible précision car ils ont tendance à halluciner des faits. Les agents web de pointe atteignent un score proche de zéro. De plus, nous introduisons SeePlanAct (SPA), un nouvel agent web qui surpasse significativement les agents précédents, et un ensemble combinant SPA et des modèles en mode "closed-book" atteint la meilleure performance globale. Par ailleurs, nous analysons les échecs des systèmes actuels et soulignons que la navigation sur le web reste un défi majeur.
English
Language agents, built on top of language models (LMs), are systems that can
interact with complex environments, such as the open web. In this work, we
examine whether such agents can perform realistic and time-consuming tasks on
the web, e.g., monitoring real-estate markets or locating relevant nearby
businesses. We introduce AssistantBench, a challenging new benchmark consisting
of 214 realistic tasks that can be automatically evaluated, covering different
scenarios and domains. We find that AssistantBench exposes the limitations of
current systems, including language models and retrieval-augmented language
models, as no model reaches an accuracy of more than 25 points. While
closed-book LMs perform well, they exhibit low precision since they tend to
hallucinate facts. State-of-the-art web agents reach a score of near zero.
Additionally, we introduce SeePlanAct (SPA), a new web agent that significantly
outperforms previous agents, and an ensemble of SPA and closed-book models
reaches the best overall performance. Moreover, we analyze failures of current
systems and highlight that web navigation remains a major challenge.Summary
AI-Generated Summary