ChatPaper.aiChatPaper

Agents OS : Un aperçu des agents basés sur MLLM pour les dispositifs informatiques généraux

OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use

August 6, 2025
papers.authors: Xueyu Hu, Tao Xiong, Biao Yi, Zishu Wei, Ruixuan Xiao, Yurun Chen, Jiasheng Ye, Meiling Tao, Xiangxin Zhou, Ziyu Zhao, Yuhuai Li, Shengze Xu, Shenzhi Wang, Xinchen Xu, Shuofei Qiao, Zhaokai Wang, Kun Kuang, Tieyong Zeng, Liang Wang, Jiwei Li, Yuchen Eleanor Jiang, Wangchunshu Zhou, Guoyin Wang, Keting Yin, Zhou Zhao, Hongxia Yang, Fan Wu, Shengyu Zhang, Fei Wu
cs.AI

papers.abstract

Le rêve de créer des assistants d’intelligence artificielle aussi compétents et polyvalents que le J.A.R.V.I.S. fictif d’Iron Man a longtemps captivé les imaginations. Avec l’évolution des modèles de langage (multi-modaux) de grande envergure ((M)LLMs), ce rêve se rapproche de la réalité, car les agents basés sur (M)LLM, utilisant des dispositifs informatiques (par exemple, ordinateurs et téléphones portables) en opérant dans les environnements et interfaces (par exemple, l’interface graphique utilisateur (GUI)) fournis par les systèmes d’exploitation (OS) pour automatiser des tâches, ont considérablement progressé. Cet article présente une étude approfondie de ces agents avancés, désignés comme agents OS. Nous commençons par élucider les fondamentaux des agents OS, en explorant leurs composants clés, notamment l’environnement, l’espace d’observation et l’espace d’action, et en décrivant les capacités essentielles telles que la compréhension, la planification et l’ancrage. Nous examinons ensuite les méthodologies pour construire des agents OS, en nous concentrant sur les modèles de base spécifiques à un domaine et les cadres d’agents. Une revue détaillée des protocoles d’évaluation et des benchmarks met en lumière la manière dont les agents OS sont évalués dans diverses tâches. Enfin, nous discutons des défis actuels et identifions des directions prometteuses pour la recherche future, notamment la sécurité et la confidentialité, la personnalisation et l’auto-évolution. Cette étude vise à consolider l’état de la recherche sur les agents OS, en fournissant des insights pour guider à la fois l’investigation académique et le développement industriel. Un dépôt GitHub open source est maintenu comme une ressource dynamique pour favoriser l’innovation dans ce domaine. Nous présentons une version de 9 pages de notre travail, acceptée par ACL 2025, pour offrir un aperçu concis du domaine.
English
The dream to create AI assistants as capable and versatile as the fictional J.A.R.V.I.S from Iron Man has long captivated imaginations. With the evolution of (multi-modal) large language models ((M)LLMs), this dream is closer to reality, as (M)LLM-based Agents using computing devices (e.g., computers and mobile phones) by operating within the environments and interfaces (e.g., Graphical User Interface (GUI)) provided by operating systems (OS) to automate tasks have significantly advanced. This paper presents a comprehensive survey of these advanced agents, designated as OS Agents. We begin by elucidating the fundamentals of OS Agents, exploring their key components including the environment, observation space, and action space, and outlining essential capabilities such as understanding, planning, and grounding. We then examine methodologies for constructing OS Agents, focusing on domain-specific foundation models and agent frameworks. A detailed review of evaluation protocols and benchmarks highlights how OS Agents are assessed across diverse tasks. Finally, we discuss current challenges and identify promising directions for future research, including safety and privacy, personalization and self-evolution. This survey aims to consolidate the state of OS Agents research, providing insights to guide both academic inquiry and industrial development. An open-source GitHub repository is maintained as a dynamic resource to foster further innovation in this field. We present a 9-page version of our work, accepted by ACL 2025, to provide a concise overview to the domain.
PDF92August 11, 2025