Agent S: Ein offenes agentisches Framework, das Computer wie ein Mensch nutzt.
Agent S: An Open Agentic Framework that Uses Computers Like a Human
October 10, 2024
Autoren: Saaket Agashe, Jiuzhou Han, Shuyu Gan, Jiachen Yang, Ang Li, Xin Eric Wang
cs.AI
Zusammenfassung
Wir präsentieren Agent S, ein offenes agentisches Framework, das autonome Interaktion mit Computern durch eine grafische Benutzeroberfläche (GUI) ermöglicht und darauf abzielt, die Mensch-Computer-Interaktion zu transformieren, indem komplexe, mehrstufige Aufgaben automatisiert werden. Agent S zielt darauf ab, drei Schlüsselherausforderungen bei der Automatisierung von Computeraufgaben zu bewältigen: das Erlangen domänenspezifischen Wissens, die Planung über lange Aufgabenhorizonte und den Umgang mit dynamischen, nicht einheitlichen Schnittstellen. Zu diesem Zweck führt Agent S erfahrungsverstärkte hierarchische Planung ein, die durch externe Wissenssuche und interne Erfahrungsabfrage auf mehreren Ebenen lernt und effiziente Aufgabenplanung und Teilausführung ermöglicht. Darüber hinaus verwendet es eine Agent-Computer-Schnittstelle (ACI), um die Denk- und Steuerungsfähigkeiten von GUI-Agenten auf der Grundlage von Multimodalen Großen Sprachmodellen (MLLMs) besser zu erfassen. Die Auswertung am OSWorld-Benchmark zeigt, dass Agent S die Basislinie um 9,37% in der Erfolgsrate übertrifft (eine relative Verbesserung von 83,6%) und einen neuen Stand der Technik erreicht. Eine umfassende Analyse hebt die Wirksamkeit der einzelnen Komponenten hervor und liefert Erkenntnisse für zukünftige Verbesserungen. Darüber hinaus zeigt Agent S eine breite Generalisierbarkeit auf verschiedene Betriebssysteme am neu veröffentlichten WindowsAgentArena-Benchmark. Der Code ist verfügbar unter https://github.com/simular-ai/Agent-S.
English
We present Agent S, an open agentic framework that enables autonomous
interaction with computers through a Graphical User Interface (GUI), aimed at
transforming human-computer interaction by automating complex, multi-step
tasks. Agent S aims to address three key challenges in automating computer
tasks: acquiring domain-specific knowledge, planning over long task horizons,
and handling dynamic, non-uniform interfaces. To this end, Agent S introduces
experience-augmented hierarchical planning, which learns from external
knowledge search and internal experience retrieval at multiple levels,
facilitating efficient task planning and subtask execution. In addition, it
employs an Agent-Computer Interface (ACI) to better elicit the reasoning and
control capabilities of GUI agents based on Multimodal Large Language Models
(MLLMs). Evaluation on the OSWorld benchmark shows that Agent S outperforms the
baseline by 9.37% on success rate (an 83.6% relative improvement) and achieves
a new state-of-the-art. Comprehensive analysis highlights the effectiveness of
individual components and provides insights for future improvements.
Furthermore, Agent S demonstrates broad generalizability to different operating
systems on a newly-released WindowsAgentArena benchmark. Code available at
https://github.com/simular-ai/Agent-S.Summary
AI-Generated Summary