Agents d'interface graphique alimentés par LLM dans l'automatisation téléphonique : État des lieux et perspectives
LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects
April 28, 2025
Auteurs: Guangyi Liu, Pengxiang Zhao, Liang Liu, Yaxuan Guo, Han Xiao, Weifeng Lin, Yuxiang Chai, Yue Han, Shuai Ren, Hao Wang, Xiaoyu Liang, Wenhao Wang, Tianze Wu, Linghao Li, Hao Wang, Guanjing Xiong, Yong Liu, Hongsheng Li
cs.AI
Résumé
Avec l'essor rapide des grands modèles de langage (LLM), l'automatisation des téléphones a connu des transformations majeures. Cet article passe en revue de manière systématique les agents d'interface graphique (GUI) téléphoniques pilotés par des LLM, en mettant en lumière leur évolution depuis l'automatisation basée sur des scripts vers des systèmes intelligents et adaptatifs. Nous contextualisons d'abord les principaux défis : (i) la généralité limitée, (ii) la charge de maintenance élevée, et (iii) la faible compréhension des intentions, et montrons comment les LLM abordent ces problèmes grâce à une compréhension avancée du langage, une perception multimodale et une prise de décision robuste. Nous proposons ensuite une taxonomie couvrant les cadres fondamentaux des agents (agent unique, multi-agents, planification puis action), les approches de modélisation (ingénierie des prompts, apprentissage par entraînement) ainsi que les ensembles de données et benchmarks essentiels. De plus, nous détaillons les architectures spécifiques aux tâches, le réglage fin supervisé et les stratégies d'apprentissage par renforcement qui relient les intentions des utilisateurs aux opérations sur l'interface graphique. Enfin, nous discutons des défis ouverts tels que la diversité des ensembles de données, l'efficacité du déploiement sur appareil, l'adaptation centrée sur l'utilisateur et les préoccupations de sécurité, en offrant des perspectives prospectives sur ce domaine en évolution rapide. En fournissant une vue d'ensemble structurée et en identifiant les lacunes de recherche pressantes, cet article sert de référence définitive pour les chercheurs et praticiens cherchant à exploiter les LLM dans la conception d'agents d'interface graphique téléphoniques évolutifs et conviviaux.
English
With the rapid rise of large language models (LLMs), phone automation has
undergone transformative changes. This paper systematically reviews LLM-driven
phone GUI agents, highlighting their evolution from script-based automation to
intelligent, adaptive systems. We first contextualize key challenges, (i)
limited generality, (ii) high maintenance overhead, and (iii) weak intent
comprehension, and show how LLMs address these issues through advanced language
understanding, multimodal perception, and robust decision-making. We then
propose a taxonomy covering fundamental agent frameworks (single-agent,
multi-agent, plan-then-act), modeling approaches (prompt engineering,
training-based), and essential datasets and benchmarks. Furthermore, we detail
task-specific architectures, supervised fine-tuning, and reinforcement learning
strategies that bridge user intent and GUI operations. Finally, we discuss open
challenges such as dataset diversity, on-device deployment efficiency,
user-centric adaptation, and security concerns, offering forward-looking
insights into this rapidly evolving field. By providing a structured overview
and identifying pressing research gaps, this paper serves as a definitive
reference for researchers and practitioners seeking to harness LLMs in
designing scalable, user-friendly phone GUI agents.Summary
AI-Generated Summary