Agente S: Un Framework Agente Aperto che Utilizza i Computer Come un Essere Umano
Agent S: An Open Agentic Framework that Uses Computers Like a Human
October 10, 2024
Autori: Saaket Agashe, Jiuzhou Han, Shuyu Gan, Jiachen Yang, Ang Li, Xin Eric Wang
cs.AI
Abstract
Presentiamo Agent S, un framework agente aperto che consente l'interazione autonoma con i computer attraverso un'Interfaccia Utente Grafica (GUI), mirato a trasformare l'interazione uomo-computer automatizzando compiti complessi e multi-step. Agent S mira ad affrontare tre sfide chiave nell'automatizzazione dei compiti informatici: acquisire conoscenze specifiche del dominio, pianificare su orizzonti temporali lunghi e gestire interfacce dinamiche e non uniformi. A tal fine, Agent S introduce la pianificazione gerarchica arricchita dall'esperienza, che apprende dalla ricerca di conoscenze esterne e dal recupero dell'esperienza interna a vari livelli, facilitando la pianificazione efficiente dei compiti e l'esecuzione dei sotto-compiti. Inoltre, impiega un'Interfaccia Agente-Computer (ACI) per elicere meglio le capacità di ragionamento e controllo degli agenti GUI basati su Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs). La valutazione sul benchmark OSWorld mostra che Agent S supera il valore di base del 9,37% sul tasso di successo (un miglioramento relativo dell'83,6%) e raggiunge un nuovo stato dell'arte. Un'analisi approfondita evidenzia l'efficacia dei singoli componenti e fornisce spunti per futuri miglioramenti. Inoltre, Agent S dimostra una vasta generalizzabilità a diversi sistemi operativi su un nuovo benchmark WindowsAgentArena appena rilasciato. Codice disponibile su https://github.com/simular-ai/Agent-S.
English
We present Agent S, an open agentic framework that enables autonomous
interaction with computers through a Graphical User Interface (GUI), aimed at
transforming human-computer interaction by automating complex, multi-step
tasks. Agent S aims to address three key challenges in automating computer
tasks: acquiring domain-specific knowledge, planning over long task horizons,
and handling dynamic, non-uniform interfaces. To this end, Agent S introduces
experience-augmented hierarchical planning, which learns from external
knowledge search and internal experience retrieval at multiple levels,
facilitating efficient task planning and subtask execution. In addition, it
employs an Agent-Computer Interface (ACI) to better elicit the reasoning and
control capabilities of GUI agents based on Multimodal Large Language Models
(MLLMs). Evaluation on the OSWorld benchmark shows that Agent S outperforms the
baseline by 9.37% on success rate (an 83.6% relative improvement) and achieves
a new state-of-the-art. Comprehensive analysis highlights the effectiveness of
individual components and provides insights for future improvements.
Furthermore, Agent S demonstrates broad generalizability to different operating
systems on a newly-released WindowsAgentArena benchmark. Code available at
https://github.com/simular-ai/Agent-S.