Agenti OS: Una Rassegna sugli Agenti Basati su MLLM per Dispositivi di Calcolo Generici

Abstract

Il sogno di creare assistenti AI capaci e versatili come il fittizio J.A.R.V.I.S. di Iron Man ha da sempre catturato l'immaginazione. Con l'evoluzione dei modelli linguistici di grandi dimensioni (multi-modali) ((M)LLM), questo sogno è più vicino alla realtà, poiché gli agenti basati su (M)LLM che utilizzano dispositivi informatici (ad esempio, computer e telefoni cellulari) operando all'interno degli ambienti e delle interfacce (ad esempio, Interfaccia Grafica Utente (GUI)) forniti dai sistemi operativi (OS) per automatizzare le attività hanno fatto progressi significativi. Questo articolo presenta una rassegna completa di questi agenti avanzati, designati come OS Agent. Iniziamo chiarendo i fondamenti degli OS Agent, esplorando i loro componenti chiave, tra cui l'ambiente, lo spazio di osservazione e lo spazio di azione, e delineando le capacità essenziali come la comprensione, la pianificazione e il grounding. Esaminiamo poi le metodologie per costruire OS Agent, concentrandoci su modelli di fondazione specifici per dominio e framework per agenti. Una revisione dettagliata dei protocolli di valutazione e dei benchmark evidenzia come gli OS Agent vengono valutati in una vasta gamma di compiti. Infine, discutiamo le attuali sfide e identifichiamo direzioni promettenti per la ricerca futura, tra cui sicurezza e privacy, personalizzazione e auto-evoluzione. Questa rassegna mira a consolidare lo stato della ricerca sugli OS Agent, fornendo spunti per guidare sia l'indagine accademica che lo sviluppo industriale. Un repository GitHub open-source è mantenuto come risorsa dinamica per favorire ulteriori innovazioni in questo campo. Presentiamo una versione di 9 pagine del nostro lavoro, accettata da ACL 2025, per fornire una panoramica concisa del dominio.

English

The dream to create AI assistants as capable and versatile as the fictional J.A.R.V.I.S from Iron Man has long captivated imaginations. With the evolution of (multi-modal) large language models ((M)LLMs), this dream is closer to reality, as (M)LLM-based Agents using computing devices (e.g., computers and mobile phones) by operating within the environments and interfaces (e.g., Graphical User Interface (GUI)) provided by operating systems (OS) to automate tasks have significantly advanced. This paper presents a comprehensive survey of these advanced agents, designated as OS Agents. We begin by elucidating the fundamentals of OS Agents, exploring their key components including the environment, observation space, and action space, and outlining essential capabilities such as understanding, planning, and grounding. We then examine methodologies for constructing OS Agents, focusing on domain-specific foundation models and agent frameworks. A detailed review of evaluation protocols and benchmarks highlights how OS Agents are assessed across diverse tasks. Finally, we discuss current challenges and identify promising directions for future research, including safety and privacy, personalization and self-evolution. This survey aims to consolidate the state of OS Agents research, providing insights to guide both academic inquiry and industrial development. An open-source GitHub repository is maintained as a dynamic resource to foster further innovation in this field. We present a 9-page version of our work, accepted by ACL 2025, to provide a concise overview to the domain.

Agenti OS: Una Rassegna sugli Agenti Basati su MLLM per Dispositivi di Calcolo Generici

OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use

Abstract

Support