Agent S : Un cadre agentic ouvert qui utilise les ordinateurs comme le ferait un humain.
Agent S: An Open Agentic Framework that Uses Computers Like a Human
October 10, 2024
Auteurs: Saaket Agashe, Jiuzhou Han, Shuyu Gan, Jiachen Yang, Ang Li, Xin Eric Wang
cs.AI
Résumé
Nous présentons Agent S, un cadre agentic ouvert qui permet une interaction autonome avec les ordinateurs via une Interface Graphique Utilisateur (GUI), visant à transformer l'interaction homme-machine en automatisant des tâches complexes et multi-étapes. Agent S vise à relever trois défis clés dans l'automatisation des tâches informatiques : acquérir des connaissances spécifiques au domaine, planifier sur de longs horizons de tâches, et gérer des interfaces dynamiques et non uniformes. À cette fin, Agent S introduit une planification hiérarchique augmentée par l'expérience, qui apprend de la recherche de connaissances externes et de la récupération d'expérience interne à plusieurs niveaux, facilitant la planification efficace des tâches et l'exécution des sous-tâches. De plus, il utilise une Interface Agent-Ordinateur (ACI) pour mieux solliciter les capacités de raisonnement et de contrôle des agents GUI basés sur les Modèles de Langage Multimodal Large (MLLMs). L'évaluation sur le benchmark OSWorld montre qu'Agent S surpasse la référence de 9,37% en taux de réussite (une amélioration relative de 83,6%) et atteint un nouvel état de l'art. Une analyse approfondie met en évidence l'efficacité des composants individuels et fournit des perspectives pour des améliorations futures. De plus, Agent S démontre une large capacité de généralisation à différents systèmes d'exploitation sur un nouveau benchmark WindowsAgentArena récemment publié. Code disponible sur https://github.com/simular-ai/Agent-S.
English
We present Agent S, an open agentic framework that enables autonomous
interaction with computers through a Graphical User Interface (GUI), aimed at
transforming human-computer interaction by automating complex, multi-step
tasks. Agent S aims to address three key challenges in automating computer
tasks: acquiring domain-specific knowledge, planning over long task horizons,
and handling dynamic, non-uniform interfaces. To this end, Agent S introduces
experience-augmented hierarchical planning, which learns from external
knowledge search and internal experience retrieval at multiple levels,
facilitating efficient task planning and subtask execution. In addition, it
employs an Agent-Computer Interface (ACI) to better elicit the reasoning and
control capabilities of GUI agents based on Multimodal Large Language Models
(MLLMs). Evaluation on the OSWorld benchmark shows that Agent S outperforms the
baseline by 9.37% on success rate (an 83.6% relative improvement) and achieves
a new state-of-the-art. Comprehensive analysis highlights the effectiveness of
individual components and provides insights for future improvements.
Furthermore, Agent S demonstrates broad generalizability to different operating
systems on a newly-released WindowsAgentArena benchmark. Code available at
https://github.com/simular-ai/Agent-S.Summary
AI-Generated Summary