LLM-управляемые GUI-агенты в автоматизации работы с телефонами: обзор достижений и перспектив
LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects
April 28, 2025
Авторы: Guangyi Liu, Pengxiang Zhao, Liang Liu, Yaxuan Guo, Han Xiao, Weifeng Lin, Yuxiang Chai, Yue Han, Shuai Ren, Hao Wang, Xiaoyu Liang, Wenhao Wang, Tianze Wu, Linghao Li, Hao Wang, Guanjing Xiong, Yong Liu, Hongsheng Li
cs.AI
Аннотация
С быстрым ростом крупных языковых моделей (LLM) автоматизация работы с телефонами претерпела значительные изменения. В данной статье систематически рассматриваются агенты графического интерфейса телефона, управляемые LLM, с акцентом на их эволюцию от сценарной автоматизации до интеллектуальных адаптивных систем. Сначала мы контекстуализируем ключевые проблемы: (i) ограниченная универсальность, (ii) высокая стоимость обслуживания и (iii) слабое понимание намерений, и показываем, как LLM решают эти проблемы благодаря продвинутому пониманию языка, мультимодальному восприятию и надежному принятию решений. Затем мы предлагаем таксономию, охватывающую основные архитектуры агентов (одиночный агент, мультиагентный, план-затем-действие), подходы к моделированию (инженерия промптов, обучение на основе данных) и ключевые наборы данных и бенчмарки. Кроме того, мы подробно рассматриваем архитектуры, специфичные для задач, тонкую настройку с учителем и стратегии обучения с подкреплением, которые связывают намерения пользователя с операциями графического интерфейса. Наконец, мы обсуждаем открытые проблемы, такие как разнообразие данных, эффективность развертывания на устройстве, адаптация с учетом пользователя и вопросы безопасности, предлагая перспективные взгляды на эту быстро развивающуюся область. Предоставляя структурированный обзор и выявляя актуальные пробелы в исследованиях, эта статья служит авторитетным справочником для исследователей и практиков, стремящихся использовать LLM для создания масштабируемых и удобных агентов графического интерфейса телефона.
English
With the rapid rise of large language models (LLMs), phone automation has
undergone transformative changes. This paper systematically reviews LLM-driven
phone GUI agents, highlighting their evolution from script-based automation to
intelligent, adaptive systems. We first contextualize key challenges, (i)
limited generality, (ii) high maintenance overhead, and (iii) weak intent
comprehension, and show how LLMs address these issues through advanced language
understanding, multimodal perception, and robust decision-making. We then
propose a taxonomy covering fundamental agent frameworks (single-agent,
multi-agent, plan-then-act), modeling approaches (prompt engineering,
training-based), and essential datasets and benchmarks. Furthermore, we detail
task-specific architectures, supervised fine-tuning, and reinforcement learning
strategies that bridge user intent and GUI operations. Finally, we discuss open
challenges such as dataset diversity, on-device deployment efficiency,
user-centric adaptation, and security concerns, offering forward-looking
insights into this rapidly evolving field. By providing a structured overview
and identifying pressing research gaps, this paper serves as a definitive
reference for researchers and practitioners seeking to harness LLMs in
designing scalable, user-friendly phone GUI agents.Summary
AI-Generated Summary