ChatPaper.aiChatPaper

Agentes de SO: Uma Análise sobre Agentes Baseados em MLLM para Dispositivos de Computação Geral

OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use

August 6, 2025
Autores: Xueyu Hu, Tao Xiong, Biao Yi, Zishu Wei, Ruixuan Xiao, Yurun Chen, Jiasheng Ye, Meiling Tao, Xiangxin Zhou, Ziyu Zhao, Yuhuai Li, Shengze Xu, Shenzhi Wang, Xinchen Xu, Shuofei Qiao, Zhaokai Wang, Kun Kuang, Tieyong Zeng, Liang Wang, Jiwei Li, Yuchen Eleanor Jiang, Wangchunshu Zhou, Guoyin Wang, Keting Yin, Zhou Zhao, Hongxia Yang, Fan Wu, Shengyu Zhang, Fei Wu
cs.AI

Resumo

O sonho de criar assistentes de IA tão capazes e versáteis quanto o fictício J.A.R.V.I.S. do Homem de Ferro há muito cativa a imaginação. Com a evolução dos modelos de linguagem grandes (multimodais) ((M)LLMs), esse sonho está mais próximo da realidade, pois os Agentes baseados em (M)LLMs que utilizam dispositivos computacionais (por exemplo, computadores e telefones móveis) operando dentro dos ambientes e interfaces (por exemplo, Interface Gráfica do Usuário (GUI)) fornecidos pelos sistemas operacionais (SO) para automatizar tarefas avançaram significativamente. Este artigo apresenta uma pesquisa abrangente desses agentes avançados, designados como Agentes de SO. Começamos elucidando os fundamentos dos Agentes de SO, explorando seus principais componentes, incluindo o ambiente, espaço de observação e espaço de ação, e delineando capacidades essenciais como compreensão, planejamento e fundamentação. Em seguida, examinamos metodologias para construir Agentes de SO, com foco em modelos de fundação específicos de domínio e frameworks de agentes. Uma revisão detalhada dos protocolos de avaliação e benchmarks destaca como os Agentes de SO são avaliados em diversas tarefas. Por fim, discutimos os desafios atuais e identificamos direções promissoras para pesquisas futuras, incluindo segurança e privacidade, personalização e auto-evolução. Esta pesquisa visa consolidar o estado da pesquisa em Agentes de SO, fornecendo insights para orientar tanto a investigação acadêmica quanto o desenvolvimento industrial. Um repositório GitHub de código aberto é mantido como um recurso dinâmico para promover mais inovação neste campo. Apresentamos uma versão de 9 páginas do nosso trabalho, aceita pela ACL 2025, para fornecer uma visão geral concisa do domínio.
English
The dream to create AI assistants as capable and versatile as the fictional J.A.R.V.I.S from Iron Man has long captivated imaginations. With the evolution of (multi-modal) large language models ((M)LLMs), this dream is closer to reality, as (M)LLM-based Agents using computing devices (e.g., computers and mobile phones) by operating within the environments and interfaces (e.g., Graphical User Interface (GUI)) provided by operating systems (OS) to automate tasks have significantly advanced. This paper presents a comprehensive survey of these advanced agents, designated as OS Agents. We begin by elucidating the fundamentals of OS Agents, exploring their key components including the environment, observation space, and action space, and outlining essential capabilities such as understanding, planning, and grounding. We then examine methodologies for constructing OS Agents, focusing on domain-specific foundation models and agent frameworks. A detailed review of evaluation protocols and benchmarks highlights how OS Agents are assessed across diverse tasks. Finally, we discuss current challenges and identify promising directions for future research, including safety and privacy, personalization and self-evolution. This survey aims to consolidate the state of OS Agents research, providing insights to guide both academic inquiry and industrial development. An open-source GitHub repository is maintained as a dynamic resource to foster further innovation in this field. We present a 9-page version of our work, accepted by ACL 2025, to provide a concise overview to the domain.
PDF92August 11, 2025