OS-агенты: Обзор агентов на основе MLLM для универсальных вычислительных устройств
OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use
August 6, 2025
Авторы: Xueyu Hu, Tao Xiong, Biao Yi, Zishu Wei, Ruixuan Xiao, Yurun Chen, Jiasheng Ye, Meiling Tao, Xiangxin Zhou, Ziyu Zhao, Yuhuai Li, Shengze Xu, Shenzhi Wang, Xinchen Xu, Shuofei Qiao, Zhaokai Wang, Kun Kuang, Tieyong Zeng, Liang Wang, Jiwei Li, Yuchen Eleanor Jiang, Wangchunshu Zhou, Guoyin Wang, Keting Yin, Zhou Zhao, Hongxia Yang, Fan Wu, Shengyu Zhang, Fei Wu
cs.AI
Аннотация
Мечта о создании искусственных интеллектуальных помощников, столь же способных и универсальных, как вымышленный J.A.R.V.I.S. из фильмов о Железном человеке, долгое время будоражила воображение. С развитием (мультимодальных) больших языковых моделей ((M)LLM) эта мечта стала ближе к реальности, поскольку агенты на основе (M)LLM, использующие вычислительные устройства (например, компьютеры и мобильные телефоны) и работающие в средах и интерфейсах (например, графический пользовательский интерфейс (GUI)), предоставляемых операционными системами (ОС) для автоматизации задач, значительно продвинулись. В данной статье представлен всесторонний обзор этих продвинутых агентов, обозначенных как ОС-агенты. Мы начинаем с разъяснения основ ОС-агентов, исследуя их ключевые компоненты, включая среду, пространство наблюдений и пространство действий, а также описываем основные возможности, такие как понимание, планирование и заземление. Затем мы рассматриваем методологии построения ОС-агентов, уделяя внимание специализированным базовым моделям и фреймворкам для агентов. Подробный обзор протоколов оценки и бенчмарков подчеркивает, как ОС-агенты оцениваются в различных задачах. Наконец, мы обсуждаем текущие вызовы и определяем перспективные направления для будущих исследований, включая безопасность и конфиденциальность, персонализацию и саморазвитие. Этот обзор направлен на консолидацию состояния исследований ОС-агентов, предоставляя инсайты для руководства как академическими изысканиями, так и промышленным развитием. Открытый репозиторий на GitHub поддерживается как динамический ресурс для стимулирования дальнейших инноваций в этой области. Мы представляем 9-страничную версию нашей работы, принятую на ACL 2025, чтобы предоставить краткий обзор данной области.
English
The dream to create AI assistants as capable and versatile as the fictional
J.A.R.V.I.S from Iron Man has long captivated imaginations. With the evolution
of (multi-modal) large language models ((M)LLMs), this dream is closer to
reality, as (M)LLM-based Agents using computing devices (e.g., computers and
mobile phones) by operating within the environments and interfaces (e.g.,
Graphical User Interface (GUI)) provided by operating systems (OS) to automate
tasks have significantly advanced. This paper presents a comprehensive survey
of these advanced agents, designated as OS Agents. We begin by elucidating the
fundamentals of OS Agents, exploring their key components including the
environment, observation space, and action space, and outlining essential
capabilities such as understanding, planning, and grounding. We then examine
methodologies for constructing OS Agents, focusing on domain-specific
foundation models and agent frameworks. A detailed review of evaluation
protocols and benchmarks highlights how OS Agents are assessed across diverse
tasks. Finally, we discuss current challenges and identify promising directions
for future research, including safety and privacy, personalization and
self-evolution. This survey aims to consolidate the state of OS Agents
research, providing insights to guide both academic inquiry and industrial
development. An open-source GitHub repository is maintained as a dynamic
resource to foster further innovation in this field. We present a 9-page
version of our work, accepted by ACL 2025, to provide a concise overview to the
domain.