AssistantBench: ¿Pueden los Agentes Web Resolver Tareas Realistas y que Consumen Tiempo?
AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks?
July 22, 2024
Autores: Ori Yoran, Samuel Joseph Amouyal, Chaitanya Malaviya, Ben Bogin, Ofir Press, Jonathan Berant
cs.AI
Resumen
Los agentes de lenguaje, construidos sobre modelos de lenguaje (LMs), son sistemas que pueden interactuar con entornos complejos, como la web abierta. En este trabajo, examinamos si dichos agentes pueden llevar a cabo tareas realistas y que consumen tiempo en la web, por ejemplo, monitorear mercados inmobiliarios o localizar negocios relevantes cercanos. Presentamos AssistantBench, un nuevo y desafiante banco de pruebas que consta de 214 tareas realistas que pueden ser evaluadas automáticamente, abarcando diferentes escenarios y dominios. Descubrimos que AssistantBench expone las limitaciones de los sistemas actuales, incluidos los modelos de lenguaje y los modelos de lenguaje aumentados con recuperación, ya que ningún modelo alcanza una precisión de más de 25 puntos. Si bien los LMs de libro cerrado tienen un buen desempeño, muestran una baja precisión ya que tienden a alucinar hechos. Los agentes web de vanguardia alcanzan una puntuación cercana a cero. Además, presentamos SeePlanAct (SPA), un nuevo agente web que supera significativamente a los agentes anteriores, y un conjunto de SPA y modelos de libro cerrado alcanza el mejor rendimiento general. Además, analizamos los fallos de los sistemas actuales y destacamos que la navegación web sigue siendo un desafío importante.
English
Language agents, built on top of language models (LMs), are systems that can
interact with complex environments, such as the open web. In this work, we
examine whether such agents can perform realistic and time-consuming tasks on
the web, e.g., monitoring real-estate markets or locating relevant nearby
businesses. We introduce AssistantBench, a challenging new benchmark consisting
of 214 realistic tasks that can be automatically evaluated, covering different
scenarios and domains. We find that AssistantBench exposes the limitations of
current systems, including language models and retrieval-augmented language
models, as no model reaches an accuracy of more than 25 points. While
closed-book LMs perform well, they exhibit low precision since they tend to
hallucinate facts. State-of-the-art web agents reach a score of near zero.
Additionally, we introduce SeePlanAct (SPA), a new web agent that significantly
outperforms previous agents, and an ensemble of SPA and closed-book models
reaches the best overall performance. Moreover, we analyze failures of current
systems and highlight that web navigation remains a major challenge.Summary
AI-Generated Summary