エージェントS:人間のようにコンピュータを使用するオープンなエージェンティックフレームワーク
Agent S: An Open Agentic Framework that Uses Computers Like a Human
October 10, 2024
著者: Saaket Agashe, Jiuzhou Han, Shuyu Gan, Jiachen Yang, Ang Li, Xin Eric Wang
cs.AI
要旨
オープンなエージェントフレームワークであるエージェントSを紹介します。このフレームワークは、グラフィカルユーザーインターフェース(GUI)を介してコンピュータとの自律的な対話を可能にし、複雑で多段階のタスクを自動化することを目的としています。エージェントSは、コンピュータタスクの自動化における3つの主要な課題に取り組んでいます:特定のドメイン知識の取得、長期のタスク計画、および動的で一様でないインターフェースの処理。このため、エージェントSは、外部知識検索と内部経験取得から学習する経験拡張型階層的計画を導入し、効率的なタスク計画とサブタスク実行を促進します。さらに、マルチモーダル大規模言語モデル(MLLMs)に基づくGUIエージェントの推論および制御能力をより適切に引き出すために、エージェントコンピュータインターフェース(ACI)を採用しています。OSWorldベンチマークでの評価では、エージェントSが成功率でベースラインを9.37%上回り(83.6%の相対改善)、新しい最先端を達成しています。包括的な分析は、個々のコンポーネントの効果を強調し、将来の改善のための示唆を提供しています。さらに、エージェントSは、新しくリリースされたWindowsAgentArenaベンチマークで異なるオペレーティングシステムに対する広範な汎用性を示しています。コードはhttps://github.com/simular-ai/Agent-Sで入手可能です。
English
We present Agent S, an open agentic framework that enables autonomous
interaction with computers through a Graphical User Interface (GUI), aimed at
transforming human-computer interaction by automating complex, multi-step
tasks. Agent S aims to address three key challenges in automating computer
tasks: acquiring domain-specific knowledge, planning over long task horizons,
and handling dynamic, non-uniform interfaces. To this end, Agent S introduces
experience-augmented hierarchical planning, which learns from external
knowledge search and internal experience retrieval at multiple levels,
facilitating efficient task planning and subtask execution. In addition, it
employs an Agent-Computer Interface (ACI) to better elicit the reasoning and
control capabilities of GUI agents based on Multimodal Large Language Models
(MLLMs). Evaluation on the OSWorld benchmark shows that Agent S outperforms the
baseline by 9.37% on success rate (an 83.6% relative improvement) and achieves
a new state-of-the-art. Comprehensive analysis highlights the effectiveness of
individual components and provides insights for future improvements.
Furthermore, Agent S demonstrates broad generalizability to different operating
systems on a newly-released WindowsAgentArena benchmark. Code available at
https://github.com/simular-ai/Agent-S.Summary
AI-Generated Summary