LLM-aangedreven GUI-agents in telefoonautomatisering: Een overzicht van voortgang en vooruitzichten
LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects
April 28, 2025
Auteurs: Guangyi Liu, Pengxiang Zhao, Liang Liu, Yaxuan Guo, Han Xiao, Weifeng Lin, Yuxiang Chai, Yue Han, Shuai Ren, Hao Wang, Xiaoyu Liang, Wenhao Wang, Tianze Wu, Linghao Li, Hao Wang, Guanjing Xiong, Yong Liu, Hongsheng Li
cs.AI
Samenvatting
Met de snelle opkomst van grote taalmodelen (LLMs) heeft telefoonautomatisering ingrijpende veranderingen ondergaan. Dit artikel geeft een systematisch overzicht van LLM-gestuurde telefoon-GUI-agenten, waarbij de evolutie van scriptgebaseerde automatisering naar intelligente, adaptieve systemen wordt belicht. We plaatsen eerst de belangrijkste uitdagingen in context: (i) beperkte algemeenheid, (ii) hoog onderhoudsvolume, en (iii) zwakke intentieherkenning, en laten zien hoe LLMs deze problemen aanpakken via geavanceerd taalbegrip, multimodale waarneming en robuuste besluitvorming. Vervolgens stellen we een taxonomie voor die fundamentele agentframeworks omvat (single-agent, multi-agent, plan-then-act), modelleerbenaderingen (prompt engineering, training-based), en essentiële datasets en benchmarks. Daarnaast gaan we in op taakspecifieke architecturen, supervised fine-tuning en reinforcement learning-strategieën die gebruikersintentie en GUI-operaties met elkaar verbinden. Tot slot bespreken we openstaande uitdagingen zoals datasetdiversiteit, efficiëntie van on-device implementatie, gebruikersgerichte aanpassing en beveiligingsproblemen, waarbij we vooruitblikkende inzichten bieden in dit snel evoluerende veld. Door een gestructureerd overzicht te bieden en dringende onderzoekslacunes te identificeren, dient dit artikel als een definitief referentiewerk voor onderzoekers en praktijkmensen die LLMs willen inzetten bij het ontwerpen van schaalbare, gebruiksvriendelijke telefoon-GUI-agenten.
English
With the rapid rise of large language models (LLMs), phone automation has
undergone transformative changes. This paper systematically reviews LLM-driven
phone GUI agents, highlighting their evolution from script-based automation to
intelligent, adaptive systems. We first contextualize key challenges, (i)
limited generality, (ii) high maintenance overhead, and (iii) weak intent
comprehension, and show how LLMs address these issues through advanced language
understanding, multimodal perception, and robust decision-making. We then
propose a taxonomy covering fundamental agent frameworks (single-agent,
multi-agent, plan-then-act), modeling approaches (prompt engineering,
training-based), and essential datasets and benchmarks. Furthermore, we detail
task-specific architectures, supervised fine-tuning, and reinforcement learning
strategies that bridge user intent and GUI operations. Finally, we discuss open
challenges such as dataset diversity, on-device deployment efficiency,
user-centric adaptation, and security concerns, offering forward-looking
insights into this rapidly evolving field. By providing a structured overview
and identifying pressing research gaps, this paper serves as a definitive
reference for researchers and practitioners seeking to harness LLMs in
designing scalable, user-friendly phone GUI agents.Summary
AI-Generated Summary