LLM-gestützte GUI-Agenten in der Telefonautomatisierung: Fortschritte und Perspektiven im Überblick
LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects
April 28, 2025
Autoren: Guangyi Liu, Pengxiang Zhao, Liang Liu, Yaxuan Guo, Han Xiao, Weifeng Lin, Yuxiang Chai, Yue Han, Shuai Ren, Hao Wang, Xiaoyu Liang, Wenhao Wang, Tianze Wu, Linghao Li, Hao Wang, Guanjing Xiong, Yong Liu, Hongsheng Li
cs.AI
Zusammenfassung
Mit dem rasanten Aufstieg großer Sprachmodelle (LLMs) hat die Telefonautomatisierung transformative Veränderungen durchlaufen. Dieses Papier bietet eine systematische Übersicht über LLM-gesteuerte Telefon-GUI-Agenten und beleuchtet deren Entwicklung von skriptbasierter Automatisierung hin zu intelligenten, adaptiven Systemen. Zunächst werden die zentralen Herausforderungen kontextualisiert: (i) begrenzte Allgemeingültigkeit, (ii) hoher Wartungsaufwand und (iii) schwache Absichtserkennung, und es wird gezeigt, wie LLMs diese Probleme durch fortschrittliches Sprachverständnis, multimodale Wahrnehmung und robuste Entscheidungsfindung adressieren. Anschließend wird eine Taxonomie vorgestellt, die grundlegende Agenten-Frameworks (Einzelagent, Multiagent, Plan-then-Act), Modellierungsansätze (Prompt-Engineering, trainingsbasierte Methoden) sowie wesentliche Datensätze und Benchmarks abdeckt. Darüber hinaus werden aufgabenspezifische Architekturen, überwachte Feinabstimmung und Reinforcement-Learning-Strategien detailliert beschrieben, die Benutzerabsichten und GUI-Operationen verbinden. Abschließend werden offene Herausforderungen wie die Diversität von Datensätzen, die Effizienz der On-Device-Bereitstellung, benutzerzentrierte Anpassung und Sicherheitsbedenken diskutiert, wobei zukunftsweisende Einblicke in dieses sich schnell entwickelnde Feld gegeben werden. Durch die Bereitstellung einer strukturierten Übersicht und die Identifizierung dringender Forschungslücken dient dieses Papier als maßgebliche Referenz für Forscher und Praktiker, die LLMs bei der Entwicklung skalierbarer, benutzerfreundlicher Telefon-GUI-Agenten nutzen möchten.
English
With the rapid rise of large language models (LLMs), phone automation has
undergone transformative changes. This paper systematically reviews LLM-driven
phone GUI agents, highlighting their evolution from script-based automation to
intelligent, adaptive systems. We first contextualize key challenges, (i)
limited generality, (ii) high maintenance overhead, and (iii) weak intent
comprehension, and show how LLMs address these issues through advanced language
understanding, multimodal perception, and robust decision-making. We then
propose a taxonomy covering fundamental agent frameworks (single-agent,
multi-agent, plan-then-act), modeling approaches (prompt engineering,
training-based), and essential datasets and benchmarks. Furthermore, we detail
task-specific architectures, supervised fine-tuning, and reinforcement learning
strategies that bridge user intent and GUI operations. Finally, we discuss open
challenges such as dataset diversity, on-device deployment efficiency,
user-centric adaptation, and security concerns, offering forward-looking
insights into this rapidly evolving field. By providing a structured overview
and identifying pressing research gaps, this paper serves as a definitive
reference for researchers and practitioners seeking to harness LLMs in
designing scalable, user-friendly phone GUI agents.Summary
AI-Generated Summary