ChatPaper.aiChatPaper

Agentes GUI impulsados por LLM en la automatización de teléfonos: Revisión del progreso y perspectivas

LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects

April 28, 2025
Autores: Guangyi Liu, Pengxiang Zhao, Liang Liu, Yaxuan Guo, Han Xiao, Weifeng Lin, Yuxiang Chai, Yue Han, Shuai Ren, Hao Wang, Xiaoyu Liang, Wenhao Wang, Tianze Wu, Linghao Li, Hao Wang, Guanjing Xiong, Yong Liu, Hongsheng Li
cs.AI

Resumen

Con el rápido auge de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), la automatización de teléfonos ha experimentado cambios transformadores. Este artículo revisa sistemáticamente los agentes de interfaz gráfica de usuario (GUI) para teléfonos impulsados por LLMs, destacando su evolución desde la automatización basada en scripts hacia sistemas inteligentes y adaptativos. Primero, contextualizamos los desafíos clave: (i) generalidad limitada, (ii) alta sobrecarga de mantenimiento y (iii) comprensión débil de intenciones, y mostramos cómo los LLMs abordan estos problemas mediante una comprensión avanzada del lenguaje, percepción multimodal y toma de decisiones robusta. Luego, proponemos una taxonomía que cubre marcos fundamentales de agentes (agente único, multiagente, planificar-luego-actuar), enfoques de modelado (ingeniería de prompts, basado en entrenamiento) y conjuntos de datos y benchmarks esenciales. Además, detallamos arquitecturas específicas para tareas, ajuste fino supervisado y estrategias de aprendizaje por refuerzo que conectan la intención del usuario con las operaciones de la GUI. Finalmente, discutimos desafíos abiertos como la diversidad de conjuntos de datos, la eficiencia en el despliegue en dispositivos, la adaptación centrada en el usuario y las preocupaciones de seguridad, ofreciendo perspectivas futuristas sobre este campo en rápida evolución. Al proporcionar una visión estructurada e identificar brechas de investigación urgentes, este artículo sirve como una referencia definitiva para investigadores y profesionales que buscan aprovechar los LLMs en el diseño de agentes de GUI para teléfonos escalables y fáciles de usar.
English
With the rapid rise of large language models (LLMs), phone automation has undergone transformative changes. This paper systematically reviews LLM-driven phone GUI agents, highlighting their evolution from script-based automation to intelligent, adaptive systems. We first contextualize key challenges, (i) limited generality, (ii) high maintenance overhead, and (iii) weak intent comprehension, and show how LLMs address these issues through advanced language understanding, multimodal perception, and robust decision-making. We then propose a taxonomy covering fundamental agent frameworks (single-agent, multi-agent, plan-then-act), modeling approaches (prompt engineering, training-based), and essential datasets and benchmarks. Furthermore, we detail task-specific architectures, supervised fine-tuning, and reinforcement learning strategies that bridge user intent and GUI operations. Finally, we discuss open challenges such as dataset diversity, on-device deployment efficiency, user-centric adaptation, and security concerns, offering forward-looking insights into this rapidly evolving field. By providing a structured overview and identifying pressing research gaps, this paper serves as a definitive reference for researchers and practitioners seeking to harness LLMs in designing scalable, user-friendly phone GUI agents.

Summary

AI-Generated Summary

PDF194April 29, 2025