Agentes de Sistemas Operativos: Una Encuesta sobre Agentes Basados en MLLM para Dispositivos de Computación General
OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use
August 6, 2025
Autores: Xueyu Hu, Tao Xiong, Biao Yi, Zishu Wei, Ruixuan Xiao, Yurun Chen, Jiasheng Ye, Meiling Tao, Xiangxin Zhou, Ziyu Zhao, Yuhuai Li, Shengze Xu, Shenzhi Wang, Xinchen Xu, Shuofei Qiao, Zhaokai Wang, Kun Kuang, Tieyong Zeng, Liang Wang, Jiwei Li, Yuchen Eleanor Jiang, Wangchunshu Zhou, Guoyin Wang, Keting Yin, Zhou Zhao, Hongxia Yang, Fan Wu, Shengyu Zhang, Fei Wu
cs.AI
Resumen
El sueño de crear asistentes de IA tan capaces y versátiles como el ficticio J.A.R.V.I.S. de Iron Man ha cautivado durante mucho tiempo la imaginación. Con la evolución de los modelos de lenguaje grandes (multimodales) ((M)LLMs), este sueño está más cerca de la realidad, ya que los agentes basados en (M)LLMs que utilizan dispositivos informáticos (por ejemplo, computadoras y teléfonos móviles) operando dentro de los entornos e interfaces (por ejemplo, Interfaz Gráfica de Usuario (GUI)) proporcionados por los sistemas operativos (SO) para automatizar tareas han avanzado significativamente. Este artículo presenta una revisión exhaustiva de estos agentes avanzados, denominados Agentes de SO. Comenzamos elucidando los fundamentos de los Agentes de SO, explorando sus componentes clave, incluyendo el entorno, el espacio de observación y el espacio de acción, y delineando capacidades esenciales como la comprensión, la planificación y la fundamentación. Luego examinamos metodologías para construir Agentes de SO, centrándonos en modelos de base específicos del dominio y marcos de agentes. Una revisión detallada de los protocolos de evaluación y los puntos de referencia destaca cómo se evalúan los Agentes de SO en diversas tareas. Finalmente, discutimos los desafíos actuales e identificamos direcciones prometedoras para futuras investigaciones, incluyendo la seguridad y privacidad, la personalización y la auto-evolución. Esta revisión tiene como objetivo consolidar el estado de la investigación sobre Agentes de SO, proporcionando ideas para guiar tanto la investigación académica como el desarrollo industrial. Se mantiene un repositorio de GitHub de código abierto como un recurso dinámico para fomentar una mayor innovación en este campo. Presentamos una versión de 9 páginas de nuestro trabajo, aceptada por ACL 2025, para ofrecer una visión concisa del dominio.
English
The dream to create AI assistants as capable and versatile as the fictional
J.A.R.V.I.S from Iron Man has long captivated imaginations. With the evolution
of (multi-modal) large language models ((M)LLMs), this dream is closer to
reality, as (M)LLM-based Agents using computing devices (e.g., computers and
mobile phones) by operating within the environments and interfaces (e.g.,
Graphical User Interface (GUI)) provided by operating systems (OS) to automate
tasks have significantly advanced. This paper presents a comprehensive survey
of these advanced agents, designated as OS Agents. We begin by elucidating the
fundamentals of OS Agents, exploring their key components including the
environment, observation space, and action space, and outlining essential
capabilities such as understanding, planning, and grounding. We then examine
methodologies for constructing OS Agents, focusing on domain-specific
foundation models and agent frameworks. A detailed review of evaluation
protocols and benchmarks highlights how OS Agents are assessed across diverse
tasks. Finally, we discuss current challenges and identify promising directions
for future research, including safety and privacy, personalization and
self-evolution. This survey aims to consolidate the state of OS Agents
research, providing insights to guide both academic inquiry and industrial
development. An open-source GitHub repository is maintained as a dynamic
resource to foster further innovation in this field. We present a 9-page
version of our work, accepted by ACL 2025, to provide a concise overview to the
domain.