Agentes GUI Alimentados por LLM na Automação de Telefones: Analisando Progressos e Perspectivas
LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects
April 28, 2025
Autores: Guangyi Liu, Pengxiang Zhao, Liang Liu, Yaxuan Guo, Han Xiao, Weifeng Lin, Yuxiang Chai, Yue Han, Shuai Ren, Hao Wang, Xiaoyu Liang, Wenhao Wang, Tianze Wu, Linghao Li, Hao Wang, Guanjing Xiong, Yong Liu, Hongsheng Li
cs.AI
Resumo
Com o rápido surgimento dos grandes modelos de linguagem (LLMs), a automação em dispositivos móveis passou por transformações significativas. Este artigo revisa sistematicamente os agentes de interface gráfica (GUI) para telefones impulsionados por LLMs, destacando sua evolução desde a automação baseada em scripts até sistemas inteligentes e adaptativos. Primeiro, contextualizamos os principais desafios: (i) generalidade limitada, (ii) alta sobrecarga de manutenção e (iii) compreensão fraca de intenções, e mostramos como os LLMs abordam essas questões por meio de compreensão avançada de linguagem, percepção multimodal e tomada de decisão robusta. Em seguida, propomos uma taxonomia que abrange frameworks fundamentais de agentes (agente único, multiagente, planejar-depois-agir), abordagens de modelagem (engenharia de prompts, baseada em treinamento) e conjuntos de dados e benchmarks essenciais. Além disso, detalhamos arquiteturas específicas para tarefas, ajuste fino supervisionado e estratégias de aprendizado por reforço que conectam a intenção do usuário às operações da GUI. Por fim, discutimos desafios em aberto, como diversidade de conjuntos de dados, eficiência de implantação em dispositivos, adaptação centrada no usuário e preocupações de segurança, oferecendo insights prospectivos para esse campo em rápida evolução. Ao fornecer uma visão estruturada e identificar lacunas de pesquisa urgentes, este artigo serve como uma referência definitiva para pesquisadores e profissionais que buscam aproveitar os LLMs no design de agentes de GUI para telefones escaláveis e amigáveis ao usuário.
English
With the rapid rise of large language models (LLMs), phone automation has
undergone transformative changes. This paper systematically reviews LLM-driven
phone GUI agents, highlighting their evolution from script-based automation to
intelligent, adaptive systems. We first contextualize key challenges, (i)
limited generality, (ii) high maintenance overhead, and (iii) weak intent
comprehension, and show how LLMs address these issues through advanced language
understanding, multimodal perception, and robust decision-making. We then
propose a taxonomy covering fundamental agent frameworks (single-agent,
multi-agent, plan-then-act), modeling approaches (prompt engineering,
training-based), and essential datasets and benchmarks. Furthermore, we detail
task-specific architectures, supervised fine-tuning, and reinforcement learning
strategies that bridge user intent and GUI operations. Finally, we discuss open
challenges such as dataset diversity, on-device deployment efficiency,
user-centric adaptation, and security concerns, offering forward-looking
insights into this rapidly evolving field. By providing a structured overview
and identifying pressing research gaps, this paper serves as a definitive
reference for researchers and practitioners seeking to harness LLMs in
designing scalable, user-friendly phone GUI agents.