Agentes GUI Alimentados por LLM na Automação de Telefones: Analisando Progressos e Perspectivas

Resumo

Com o rápido surgimento dos grandes modelos de linguagem (LLMs), a automação em dispositivos móveis passou por transformações significativas. Este artigo revisa sistematicamente os agentes de interface gráfica (GUI) para telefones impulsionados por LLMs, destacando sua evolução desde a automação baseada em scripts até sistemas inteligentes e adaptativos. Primeiro, contextualizamos os principais desafios: (i) generalidade limitada, (ii) alta sobrecarga de manutenção e (iii) compreensão fraca de intenções, e mostramos como os LLMs abordam essas questões por meio de compreensão avançada de linguagem, percepção multimodal e tomada de decisão robusta. Em seguida, propomos uma taxonomia que abrange frameworks fundamentais de agentes (agente único, multiagente, planejar-depois-agir), abordagens de modelagem (engenharia de prompts, baseada em treinamento) e conjuntos de dados e benchmarks essenciais. Além disso, detalhamos arquiteturas específicas para tarefas, ajuste fino supervisionado e estratégias de aprendizado por reforço que conectam a intenção do usuário às operações da GUI. Por fim, discutimos desafios em aberto, como diversidade de conjuntos de dados, eficiência de implantação em dispositivos, adaptação centrada no usuário e preocupações de segurança, oferecendo insights prospectivos para esse campo em rápida evolução. Ao fornecer uma visão estruturada e identificar lacunas de pesquisa urgentes, este artigo serve como uma referência definitiva para pesquisadores e profissionais que buscam aproveitar os LLMs no design de agentes de GUI para telefones escaláveis e amigáveis ao usuário.

English

With the rapid rise of large language models (LLMs), phone automation has undergone transformative changes. This paper systematically reviews LLM-driven phone GUI agents, highlighting their evolution from script-based automation to intelligent, adaptive systems. We first contextualize key challenges, (i) limited generality, (ii) high maintenance overhead, and (iii) weak intent comprehension, and show how LLMs address these issues through advanced language understanding, multimodal perception, and robust decision-making. We then propose a taxonomy covering fundamental agent frameworks (single-agent, multi-agent, plan-then-act), modeling approaches (prompt engineering, training-based), and essential datasets and benchmarks. Furthermore, we detail task-specific architectures, supervised fine-tuning, and reinforcement learning strategies that bridge user intent and GUI operations. Finally, we discuss open challenges such as dataset diversity, on-device deployment efficiency, user-centric adaptation, and security concerns, offering forward-looking insights into this rapidly evolving field. By providing a structured overview and identifying pressing research gaps, this paper serves as a definitive reference for researchers and practitioners seeking to harness LLMs in designing scalable, user-friendly phone GUI agents.

Agentes GUI Alimentados por LLM na Automação de Telefones: Analisando Progressos e Perspectivas

LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects

Resumo

Support