ChatPaper.aiChatPaper

AssistantBench: 웹 에이전트가 현실적이고 시간 소모적인 작업을 해결할 수 있을까?

AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks?

July 22, 2024
저자: Ori Yoran, Samuel Joseph Amouyal, Chaitanya Malaviya, Ben Bogin, Ofir Press, Jonathan Berant
cs.AI

초록

언어 모델(LM)을 기반으로 구축된 언어 에이전트는 개방형 웹과 같은 복잡한 환경과 상호작용할 수 있는 시스템입니다. 본 연구에서는 이러한 에이전트가 부동산 시장 모니터링이나 관련 근처 업체 찾기와 같이 현실적이고 시간이 소요되는 웹 작업을 수행할 수 있는지 검토합니다. 우리는 다양한 시나리오와 도메인을 아우르며 자동 평가가 가능한 214개의 현실적인 작업으로 구성된 새로운 벤치마크인 AssistantBench을 소개합니다. AssistantBench을 통해 현재 시스템, 즉 언어 모델과 검색 강화 언어 모델의 한계가 드러났는데, 어떤 모델도 25점 이상의 정확도를 달성하지 못했습니다. 폐쇄형 언어 모델은 성능이 우수하지만 사실을 허구적으로 만들어내는 경향이 있어 정밀도가 낮습니다. 최첨단 웹 에이전트는 거의 0점에 가까운 점수를 기록했습니다. 또한, 우리는 이전 에이전트들을 크게 능가하는 새로운 웹 에이전트인 SeePlanAct(SPA)를 소개하며, SPA와 폐쇄형 모델의 앙상블이 최고의 전반적인 성능을 달성함을 보여줍니다. 더 나아가, 현재 시스템의 실패 사례를 분석하며 웹 탐색이 여전히 주요 과제임을 강조합니다.
English
Language agents, built on top of language models (LMs), are systems that can interact with complex environments, such as the open web. In this work, we examine whether such agents can perform realistic and time-consuming tasks on the web, e.g., monitoring real-estate markets or locating relevant nearby businesses. We introduce AssistantBench, a challenging new benchmark consisting of 214 realistic tasks that can be automatically evaluated, covering different scenarios and domains. We find that AssistantBench exposes the limitations of current systems, including language models and retrieval-augmented language models, as no model reaches an accuracy of more than 25 points. While closed-book LMs perform well, they exhibit low precision since they tend to hallucinate facts. State-of-the-art web agents reach a score of near zero. Additionally, we introduce SeePlanAct (SPA), a new web agent that significantly outperforms previous agents, and an ensemble of SPA and closed-book models reaches the best overall performance. Moreover, we analyze failures of current systems and highlight that web navigation remains a major challenge.

Summary

AI-Generated Summary

PDF94November 28, 2024