ChatPaper.aiChatPaper

OS Agents: Een overzicht van MLLM-gebaseerde agents voor algemene rekenapparaten

OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use

August 6, 2025
Auteurs: Xueyu Hu, Tao Xiong, Biao Yi, Zishu Wei, Ruixuan Xiao, Yurun Chen, Jiasheng Ye, Meiling Tao, Xiangxin Zhou, Ziyu Zhao, Yuhuai Li, Shengze Xu, Shenzhi Wang, Xinchen Xu, Shuofei Qiao, Zhaokai Wang, Kun Kuang, Tieyong Zeng, Liang Wang, Jiwei Li, Yuchen Eleanor Jiang, Wangchunshu Zhou, Guoyin Wang, Keting Yin, Zhou Zhao, Hongxia Yang, Fan Wu, Shengyu Zhang, Fei Wu
cs.AI

Samenvatting

De droom om AI-assistenten te creëren die even capabel en veelzijdig zijn als de fictieve J.A.R.V.I.S. uit Iron Man heeft lang de verbeelding geprikkeld. Met de evolutie van (multi-modale) grote taalmodellen ((M)LLMs) is deze droom dichter bij de werkelijkheid gekomen, aangezien (M)LLM-gebaseerde agents die gebruikmaken van rekenapparaten (bijvoorbeeld computers en mobiele telefoons) door te opereren binnen de omgevingen en interfaces (bijvoorbeeld Grafische Gebruikersinterface (GUI)) die door besturingssystemen (OS) worden geboden om taken te automatiseren, aanzienlijk zijn gevorderd. Dit artikel presenteert een uitgebreid overzicht van deze geavanceerde agents, aangeduid als OS Agents. We beginnen met het verhelderen van de basisprincipes van OS Agents, waarbij we hun belangrijkste componenten verkennen, waaronder de omgeving, observatieruimte en actieruimte, en essentiële capaciteiten schetsen zoals begrip, planning en verankering. Vervolgens onderzoeken we methodologieën voor het construeren van OS Agents, met een focus op domeinspecifieke foundation-modellen en agentframeworks. Een gedetailleerde review van evaluatieprotocollen en benchmarks benadrukt hoe OS Agents worden beoordeeld over diverse taken. Ten slotte bespreken we huidige uitdagingen en identificeren we veelbelovende richtingen voor toekomstig onderzoek, waaronder veiligheid en privacy, personalisatie en zelf-evolutie. Dit overzicht heeft als doel de stand van het onderzoek naar OS Agents te consolideren, inzichten te bieden om zowel academisch onderzoek als industriële ontwikkeling te begeleiden. Een open-source GitHub-repository wordt onderhouden als een dynamische bron om verdere innovatie op dit gebied te bevorderen. We presenteren een 9-pagina versie van ons werk, geaccepteerd door ACL 2025, om een beknopt overzicht van het domein te bieden.
English
The dream to create AI assistants as capable and versatile as the fictional J.A.R.V.I.S from Iron Man has long captivated imaginations. With the evolution of (multi-modal) large language models ((M)LLMs), this dream is closer to reality, as (M)LLM-based Agents using computing devices (e.g., computers and mobile phones) by operating within the environments and interfaces (e.g., Graphical User Interface (GUI)) provided by operating systems (OS) to automate tasks have significantly advanced. This paper presents a comprehensive survey of these advanced agents, designated as OS Agents. We begin by elucidating the fundamentals of OS Agents, exploring their key components including the environment, observation space, and action space, and outlining essential capabilities such as understanding, planning, and grounding. We then examine methodologies for constructing OS Agents, focusing on domain-specific foundation models and agent frameworks. A detailed review of evaluation protocols and benchmarks highlights how OS Agents are assessed across diverse tasks. Finally, we discuss current challenges and identify promising directions for future research, including safety and privacy, personalization and self-evolution. This survey aims to consolidate the state of OS Agents research, providing insights to guide both academic inquiry and industrial development. An open-source GitHub repository is maintained as a dynamic resource to foster further innovation in this field. We present a 9-page version of our work, accepted by ACL 2025, to provide a concise overview to the domain.
PDF82August 11, 2025