ChatPaper.aiChatPaper

AssistantBench: Webエージェントは現実的で時間のかかるタスクを解決できるか?

AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks?

July 22, 2024
著者: Ori Yoran, Samuel Joseph Amouyal, Chaitanya Malaviya, Ben Bogin, Ofir Press, Jonathan Berant
cs.AI

要旨

言語モデル(LM)を基盤とした言語エージェントは、オープンウェブなどの複雑な環境と相互作用できるシステムです。本研究では、このようなエージェントが、不動産市場の監視や近隣の関連ビジネスの検索など、現実的で時間のかかるタスクをウェブ上で実行できるかどうかを検証します。我々は、AssistantBenchという、214の現実的なタスクからなる自動評価可能な新しいベンチマークを導入し、さまざまなシナリオとドメインをカバーします。AssistantBenchを通じて、現在のシステム(言語モデルや検索拡張言語モデルを含む)の限界が明らかになり、どのモデルも25ポイント以上の精度に達していないことがわかりました。クローズドブックのLMは良好な性能を示しますが、事実を捏造する傾向があるため精度が低いです。最先端のウェブエージェントはほぼゼロのスコアに留まります。さらに、我々はSeePlanAct(SPA)という新しいウェブエージェントを導入し、これが従来のエージェントを大幅に上回る性能を示し、SPAとクローズドブックモデルのアンサンブルが最高の総合性能を達成しました。また、現在のシステムの失敗例を分析し、ウェブナビゲーションが依然として主要な課題であることを強調します。
English
Language agents, built on top of language models (LMs), are systems that can interact with complex environments, such as the open web. In this work, we examine whether such agents can perform realistic and time-consuming tasks on the web, e.g., monitoring real-estate markets or locating relevant nearby businesses. We introduce AssistantBench, a challenging new benchmark consisting of 214 realistic tasks that can be automatically evaluated, covering different scenarios and domains. We find that AssistantBench exposes the limitations of current systems, including language models and retrieval-augmented language models, as no model reaches an accuracy of more than 25 points. While closed-book LMs perform well, they exhibit low precision since they tend to hallucinate facts. State-of-the-art web agents reach a score of near zero. Additionally, we introduce SeePlanAct (SPA), a new web agent that significantly outperforms previous agents, and an ensemble of SPA and closed-book models reaches the best overall performance. Moreover, we analyze failures of current systems and highlight that web navigation remains a major challenge.

Summary

AI-Generated Summary

PDF94November 28, 2024