ChatPaper.aiChatPaper

OS-Agenten: Ein Überblick über MLLM-basierte Agenten für allgemeine Rechengeräte

OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use

August 6, 2025
papers.authors: Xueyu Hu, Tao Xiong, Biao Yi, Zishu Wei, Ruixuan Xiao, Yurun Chen, Jiasheng Ye, Meiling Tao, Xiangxin Zhou, Ziyu Zhao, Yuhuai Li, Shengze Xu, Shenzhi Wang, Xinchen Xu, Shuofei Qiao, Zhaokai Wang, Kun Kuang, Tieyong Zeng, Liang Wang, Jiwei Li, Yuchen Eleanor Jiang, Wangchunshu Zhou, Guoyin Wang, Keting Yin, Zhou Zhao, Hongxia Yang, Fan Wu, Shengyu Zhang, Fei Wu
cs.AI

papers.abstract

Der Traum, KI-Assistenten zu erschaffen, die so fähig und vielseitig sind wie der fiktive J.A.R.V.I.S aus Iron Man, hat die Vorstellungskraft schon lange beflügelt. Mit der Entwicklung von (multi-modalen) großen Sprachmodellen ((M)LLMs) rückt dieser Traum näher an die Realität, da (M)LLM-basierte Agenten, die Rechengeräte (z.B. Computer und Mobiltelefone) nutzen, indem sie innerhalb der Umgebungen und Schnittstellen (z.B. Grafische Benutzeroberfläche (GUI)) von Betriebssystemen (OS) operieren, um Aufgaben zu automatisieren, erhebliche Fortschritte gemacht haben. Dieses Papier präsentiert eine umfassende Übersicht über diese fortschrittlichen Agenten, die als OS-Agenten bezeichnet werden. Wir beginnen damit, die Grundlagen von OS-Agenten zu erläutern, ihre Schlüsselkomponenten wie die Umgebung, den Beobachtungsraum und den Aktionsraum zu untersuchen und wesentliche Fähigkeiten wie Verständnis, Planung und Verankerung zu skizzieren. Anschließend betrachten wir Methoden zur Konstruktion von OS-Agenten, wobei wir uns auf domänenspezifische Basismodelle und Agenten-Frameworks konzentrieren. Eine detaillierte Überprüfung von Evaluationsprotokollen und Benchmarks zeigt, wie OS-Agenten in verschiedenen Aufgaben bewertet werden. Schließlich diskutieren wir aktuelle Herausforderungen und identifizieren vielversprechende Richtungen für zukünftige Forschung, darunter Sicherheit und Datenschutz, Personalisierung und Selbstentwicklung. Diese Übersicht zielt darauf ab, den Stand der OS-Agenten-Forschung zu konsolidieren und Einblicke zu bieten, die sowohl die akademische Forschung als auch die industrielle Entwicklung leiten können. Ein Open-Source-GitHub-Repository wird als dynamische Ressource gepflegt, um weitere Innovationen in diesem Bereich zu fördern. Wir präsentieren eine 9-seitige Version unserer Arbeit, die von ACL 2025 akzeptiert wurde, um einen prägnanten Überblick über das Gebiet zu bieten.
English
The dream to create AI assistants as capable and versatile as the fictional J.A.R.V.I.S from Iron Man has long captivated imaginations. With the evolution of (multi-modal) large language models ((M)LLMs), this dream is closer to reality, as (M)LLM-based Agents using computing devices (e.g., computers and mobile phones) by operating within the environments and interfaces (e.g., Graphical User Interface (GUI)) provided by operating systems (OS) to automate tasks have significantly advanced. This paper presents a comprehensive survey of these advanced agents, designated as OS Agents. We begin by elucidating the fundamentals of OS Agents, exploring their key components including the environment, observation space, and action space, and outlining essential capabilities such as understanding, planning, and grounding. We then examine methodologies for constructing OS Agents, focusing on domain-specific foundation models and agent frameworks. A detailed review of evaluation protocols and benchmarks highlights how OS Agents are assessed across diverse tasks. Finally, we discuss current challenges and identify promising directions for future research, including safety and privacy, personalization and self-evolution. This survey aims to consolidate the state of OS Agents research, providing insights to guide both academic inquiry and industrial development. An open-source GitHub repository is maintained as a dynamic resource to foster further innovation in this field. We present a 9-page version of our work, accepted by ACL 2025, to provide a concise overview to the domain.
PDF92August 11, 2025