Agente S: Un Framework Agente Aperto che Utilizza i Computer Come un Essere Umano

Abstract

Presentiamo Agent S, un framework agente aperto che consente l'interazione autonoma con i computer attraverso un'Interfaccia Utente Grafica (GUI), mirato a trasformare l'interazione uomo-computer automatizzando compiti complessi e multi-step. Agent S mira ad affrontare tre sfide chiave nell'automatizzazione dei compiti informatici: acquisire conoscenze specifiche del dominio, pianificare su orizzonti temporali lunghi e gestire interfacce dinamiche e non uniformi. A tal fine, Agent S introduce la pianificazione gerarchica arricchita dall'esperienza, che apprende dalla ricerca di conoscenze esterne e dal recupero dell'esperienza interna a vari livelli, facilitando la pianificazione efficiente dei compiti e l'esecuzione dei sotto-compiti. Inoltre, impiega un'Interfaccia Agente-Computer (ACI) per elicere meglio le capacità di ragionamento e controllo degli agenti GUI basati su Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs). La valutazione sul benchmark OSWorld mostra che Agent S supera il valore di base del 9,37% sul tasso di successo (un miglioramento relativo dell'83,6%) e raggiunge un nuovo stato dell'arte. Un'analisi approfondita evidenzia l'efficacia dei singoli componenti e fornisce spunti per futuri miglioramenti. Inoltre, Agent S dimostra una vasta generalizzabilità a diversi sistemi operativi su un nuovo benchmark WindowsAgentArena appena rilasciato. Codice disponibile su https://github.com/simular-ai/Agent-S.

English

We present Agent S, an open agentic framework that enables autonomous interaction with computers through a Graphical User Interface (GUI), aimed at transforming human-computer interaction by automating complex, multi-step tasks. Agent S aims to address three key challenges in automating computer tasks: acquiring domain-specific knowledge, planning over long task horizons, and handling dynamic, non-uniform interfaces. To this end, Agent S introduces experience-augmented hierarchical planning, which learns from external knowledge search and internal experience retrieval at multiple levels, facilitating efficient task planning and subtask execution. In addition, it employs an Agent-Computer Interface (ACI) to better elicit the reasoning and control capabilities of GUI agents based on Multimodal Large Language Models (MLLMs). Evaluation on the OSWorld benchmark shows that Agent S outperforms the baseline by 9.37% on success rate (an 83.6% relative improvement) and achieves a new state-of-the-art. Comprehensive analysis highlights the effectiveness of individual components and provides insights for future improvements. Furthermore, Agent S demonstrates broad generalizability to different operating systems on a newly-released WindowsAgentArena benchmark. Code available at https://github.com/simular-ai/Agent-S.

Agente S: Un Framework Agente Aperto che Utilizza i Computer Come un Essere Umano

Agent S: An Open Agentic Framework that Uses Computers Like a Human

Abstract

Support