Agents d'interface graphique alimentés par LLM dans l'automatisation téléphonique : État des lieux et perspectives

papers.abstract

Avec l'essor rapide des grands modèles de langage (LLM), l'automatisation des téléphones a connu des transformations majeures. Cet article passe en revue de manière systématique les agents d'interface graphique (GUI) téléphoniques pilotés par des LLM, en mettant en lumière leur évolution depuis l'automatisation basée sur des scripts vers des systèmes intelligents et adaptatifs. Nous contextualisons d'abord les principaux défis : (i) la généralité limitée, (ii) la charge de maintenance élevée, et (iii) la faible compréhension des intentions, et montrons comment les LLM abordent ces problèmes grâce à une compréhension avancée du langage, une perception multimodale et une prise de décision robuste. Nous proposons ensuite une taxonomie couvrant les cadres fondamentaux des agents (agent unique, multi-agents, planification puis action), les approches de modélisation (ingénierie des prompts, apprentissage par entraînement) ainsi que les ensembles de données et benchmarks essentiels. De plus, nous détaillons les architectures spécifiques aux tâches, le réglage fin supervisé et les stratégies d'apprentissage par renforcement qui relient les intentions des utilisateurs aux opérations sur l'interface graphique. Enfin, nous discutons des défis ouverts tels que la diversité des ensembles de données, l'efficacité du déploiement sur appareil, l'adaptation centrée sur l'utilisateur et les préoccupations de sécurité, en offrant des perspectives prospectives sur ce domaine en évolution rapide. En fournissant une vue d'ensemble structurée et en identifiant les lacunes de recherche pressantes, cet article sert de référence définitive pour les chercheurs et praticiens cherchant à exploiter les LLM dans la conception d'agents d'interface graphique téléphoniques évolutifs et conviviaux.

English

With the rapid rise of large language models (LLMs), phone automation has undergone transformative changes. This paper systematically reviews LLM-driven phone GUI agents, highlighting their evolution from script-based automation to intelligent, adaptive systems. We first contextualize key challenges, (i) limited generality, (ii) high maintenance overhead, and (iii) weak intent comprehension, and show how LLMs address these issues through advanced language understanding, multimodal perception, and robust decision-making. We then propose a taxonomy covering fundamental agent frameworks (single-agent, multi-agent, plan-then-act), modeling approaches (prompt engineering, training-based), and essential datasets and benchmarks. Furthermore, we detail task-specific architectures, supervised fine-tuning, and reinforcement learning strategies that bridge user intent and GUI operations. Finally, we discuss open challenges such as dataset diversity, on-device deployment efficiency, user-centric adaptation, and security concerns, offering forward-looking insights into this rapidly evolving field. By providing a structured overview and identifying pressing research gaps, this paper serves as a definitive reference for researchers and practitioners seeking to harness LLMs in designing scalable, user-friendly phone GUI agents.

Agents d'interface graphique alimentés par LLM dans l'automatisation téléphonique : État des lieux et perspectives

LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects

papers.abstract

Support