ChatPaper.aiChatPaper

AssistantBench: Será que Agentes Web podem Resolver Tarefas Realistas e Consumidoras de Tempo?

AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks?

July 22, 2024
Autores: Ori Yoran, Samuel Joseph Amouyal, Chaitanya Malaviya, Ben Bogin, Ofir Press, Jonathan Berant
cs.AI

Resumo

Agentes de linguagem, construídos com base em modelos de linguagem (LMs), são sistemas que podem interagir com ambientes complexos, como a web aberta. Neste trabalho, examinamos se tais agentes podem realizar tarefas realistas e demoradas na web, como monitorar mercados imobiliários ou localizar empresas relevantes próximas. Apresentamos o AssistantBench, um novo benchmark desafiador composto por 214 tarefas realistas que podem ser avaliadas automaticamente, abrangendo diferentes cenários e domínios. Constatamos que o AssistantBench expõe as limitações dos sistemas atuais, incluindo modelos de linguagem e modelos de linguagem com recuperação aprimorada, uma vez que nenhum modelo atinge uma precisão de mais de 25 pontos. Embora os LMs de livro fechado tenham um bom desempenho, eles apresentam baixa precisão, pois tendem a alucinar fatos. Agentes web de ponta alcançam uma pontuação próxima de zero. Além disso, apresentamos o SeePlanAct (SPA), um novo agente web que supera significativamente agentes anteriores, e um conjunto de SPA e modelos de livro fechado alcança o melhor desempenho geral. Além disso, analisamos as falhas dos sistemas atuais e destacamos que a navegação na web continua sendo um grande desafio.
English
Language agents, built on top of language models (LMs), are systems that can interact with complex environments, such as the open web. In this work, we examine whether such agents can perform realistic and time-consuming tasks on the web, e.g., monitoring real-estate markets or locating relevant nearby businesses. We introduce AssistantBench, a challenging new benchmark consisting of 214 realistic tasks that can be automatically evaluated, covering different scenarios and domains. We find that AssistantBench exposes the limitations of current systems, including language models and retrieval-augmented language models, as no model reaches an accuracy of more than 25 points. While closed-book LMs perform well, they exhibit low precision since they tend to hallucinate facts. State-of-the-art web agents reach a score of near zero. Additionally, we introduce SeePlanAct (SPA), a new web agent that significantly outperforms previous agents, and an ensemble of SPA and closed-book models reaches the best overall performance. Moreover, we analyze failures of current systems and highlight that web navigation remains a major challenge.
PDF94November 28, 2024