LLM-aangedreven GUI-agents in telefoonautomatisering: Een overzicht van voortgang en vooruitzichten

Samenvatting

Met de snelle opkomst van grote taalmodelen (LLMs) heeft telefoonautomatisering ingrijpende veranderingen ondergaan. Dit artikel geeft een systematisch overzicht van LLM-gestuurde telefoon-GUI-agenten, waarbij de evolutie van scriptgebaseerde automatisering naar intelligente, adaptieve systemen wordt belicht. We plaatsen eerst de belangrijkste uitdagingen in context: (i) beperkte algemeenheid, (ii) hoog onderhoudsvolume, en (iii) zwakke intentieherkenning, en laten zien hoe LLMs deze problemen aanpakken via geavanceerd taalbegrip, multimodale waarneming en robuuste besluitvorming. Vervolgens stellen we een taxonomie voor die fundamentele agentframeworks omvat (single-agent, multi-agent, plan-then-act), modelleerbenaderingen (prompt engineering, training-based), en essentiële datasets en benchmarks. Daarnaast gaan we in op taakspecifieke architecturen, supervised fine-tuning en reinforcement learning-strategieën die gebruikersintentie en GUI-operaties met elkaar verbinden. Tot slot bespreken we openstaande uitdagingen zoals datasetdiversiteit, efficiëntie van on-device implementatie, gebruikersgerichte aanpassing en beveiligingsproblemen, waarbij we vooruitblikkende inzichten bieden in dit snel evoluerende veld. Door een gestructureerd overzicht te bieden en dringende onderzoekslacunes te identificeren, dient dit artikel als een definitief referentiewerk voor onderzoekers en praktijkmensen die LLMs willen inzetten bij het ontwerpen van schaalbare, gebruiksvriendelijke telefoon-GUI-agenten.

English

With the rapid rise of large language models (LLMs), phone automation has undergone transformative changes. This paper systematically reviews LLM-driven phone GUI agents, highlighting their evolution from script-based automation to intelligent, adaptive systems. We first contextualize key challenges, (i) limited generality, (ii) high maintenance overhead, and (iii) weak intent comprehension, and show how LLMs address these issues through advanced language understanding, multimodal perception, and robust decision-making. We then propose a taxonomy covering fundamental agent frameworks (single-agent, multi-agent, plan-then-act), modeling approaches (prompt engineering, training-based), and essential datasets and benchmarks. Furthermore, we detail task-specific architectures, supervised fine-tuning, and reinforcement learning strategies that bridge user intent and GUI operations. Finally, we discuss open challenges such as dataset diversity, on-device deployment efficiency, user-centric adaptation, and security concerns, offering forward-looking insights into this rapidly evolving field. By providing a structured overview and identifying pressing research gaps, this paper serves as a definitive reference for researchers and practitioners seeking to harness LLMs in designing scalable, user-friendly phone GUI agents.

LLM-aangedreven GUI-agents in telefoonautomatisering: Een overzicht van voortgang en vooruitzichten

LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects

Samenvatting

Summary

Support

Support