Agent S: Een Open Agentisch Framework dat Computers Gebruikt Zoals een Mens.
Agent S: An Open Agentic Framework that Uses Computers Like a Human
October 10, 2024
Auteurs: Saaket Agashe, Jiuzhou Han, Shuyu Gan, Jiachen Yang, Ang Li, Xin Eric Wang
cs.AI
Samenvatting
Wij presenteren Agent S, een open agentisch framework dat autonome interactie met computers mogelijk maakt via een Grafische Gebruikersinterface (GUI), met als doel mens-computerinteractie te transformeren door het automatiseren van complexe, meerstaps taken. Agent S heeft tot doel drie belangrijke uitdagingen aan te pakken bij het automatiseren van computertaken: het verwerven van domeinspecifieke kennis, plannen over lange takenhorizonten en omgaan met dynamische, niet-uniforme interfaces. Hiertoe introduceert Agent S ervaringsverrijkte hiërarchische planning, die leert van externe kenniszoekopdrachten en interne ervaringsopvragingen op meerdere niveaus, wat efficiënte taakplanning en uitvoering van subtaken faciliteert. Bovendien maakt het gebruik van een Agent-Computer Interface (ACI) om de redeneer- en controlecapaciteiten van GUI-agenten op basis van Multimodale Grote Taalmodellen (MLLM's) beter naar voren te brengen. Evaluatie op de OSWorld benchmark toont aan dat Agent S de baseline overtreft met 9,37% op het succespercentage (een relatieve verbetering van 83,6%) en een nieuwe state-of-the-art bereikt. Een uitgebreide analyse benadrukt de effectiviteit van individuele componenten en biedt inzichten voor toekomstige verbeteringen. Bovendien toont Agent S brede generaliseerbaarheid naar verschillende besturingssystemen op een nieuw uitgebrachte WindowsAgentArena benchmark. Code beschikbaar op https://github.com/simular-ai/Agent-S.
English
We present Agent S, an open agentic framework that enables autonomous
interaction with computers through a Graphical User Interface (GUI), aimed at
transforming human-computer interaction by automating complex, multi-step
tasks. Agent S aims to address three key challenges in automating computer
tasks: acquiring domain-specific knowledge, planning over long task horizons,
and handling dynamic, non-uniform interfaces. To this end, Agent S introduces
experience-augmented hierarchical planning, which learns from external
knowledge search and internal experience retrieval at multiple levels,
facilitating efficient task planning and subtask execution. In addition, it
employs an Agent-Computer Interface (ACI) to better elicit the reasoning and
control capabilities of GUI agents based on Multimodal Large Language Models
(MLLMs). Evaluation on the OSWorld benchmark shows that Agent S outperforms the
baseline by 9.37% on success rate (an 83.6% relative improvement) and achieves
a new state-of-the-art. Comprehensive analysis highlights the effectiveness of
individual components and provides insights for future improvements.
Furthermore, Agent S demonstrates broad generalizability to different operating
systems on a newly-released WindowsAgentArena benchmark. Code available at
https://github.com/simular-ai/Agent-S.Summary
AI-Generated Summary