ChatPaper.aiChatPaper

Agenti GUI basati su LLM nell'automazione telefonica: un'analisi dei progressi e delle prospettive

LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects

April 28, 2025
Autori: Guangyi Liu, Pengxiang Zhao, Liang Liu, Yaxuan Guo, Han Xiao, Weifeng Lin, Yuxiang Chai, Yue Han, Shuai Ren, Hao Wang, Xiaoyu Liang, Wenhao Wang, Tianze Wu, Linghao Li, Hao Wang, Guanjing Xiong, Yong Liu, Hongsheng Li
cs.AI

Abstract

Con la rapida ascesa dei grandi modelli linguistici (LLM), l'automazione telefonica ha subito cambiamenti trasformativi. Questo articolo esamina sistematicamente gli agenti per interfacce grafiche (GUI) telefoniche guidati da LLM, evidenziando la loro evoluzione da automazioni basate su script a sistemi intelligenti e adattivi. Inizialmente contestualizziamo le principali sfide: (i) limitata generalità, (ii) elevato sovraccarico di manutenzione e (iii) debole comprensione delle intenzioni, e mostriamo come gli LLM affrontino questi problemi attraverso una comprensione avanzata del linguaggio, percezione multimodale e processi decisionali robusti. Proponiamo quindi una tassonomia che copre i framework fondamentali degli agenti (agente singolo, multi-agente, pianifica-poi-agisci), approcci di modellazione (ingegneria dei prompt, basati su addestramento) e dataset e benchmark essenziali. Inoltre, dettagliamo architetture specifiche per task, fine-tuning supervisionato e strategie di apprendimento per rinforzo che collegano l'intento dell'utente alle operazioni GUI. Infine, discutiamo le sfide aperte come la diversità dei dataset, l'efficienza del deployment su dispositivo, l'adattamento centrato sull'utente e le preoccupazioni di sicurezza, offrendo prospettive future su questo campo in rapida evoluzione. Fornendo una panoramica strutturata e identificando le lacune di ricerca più urgenti, questo articolo rappresenta un riferimento definitivo per ricercatori e professionisti che cercano di sfruttare gli LLM nella progettazione di agenti GUI telefonici scalabili e user-friendly.
English
With the rapid rise of large language models (LLMs), phone automation has undergone transformative changes. This paper systematically reviews LLM-driven phone GUI agents, highlighting their evolution from script-based automation to intelligent, adaptive systems. We first contextualize key challenges, (i) limited generality, (ii) high maintenance overhead, and (iii) weak intent comprehension, and show how LLMs address these issues through advanced language understanding, multimodal perception, and robust decision-making. We then propose a taxonomy covering fundamental agent frameworks (single-agent, multi-agent, plan-then-act), modeling approaches (prompt engineering, training-based), and essential datasets and benchmarks. Furthermore, we detail task-specific architectures, supervised fine-tuning, and reinforcement learning strategies that bridge user intent and GUI operations. Finally, we discuss open challenges such as dataset diversity, on-device deployment efficiency, user-centric adaptation, and security concerns, offering forward-looking insights into this rapidly evolving field. By providing a structured overview and identifying pressing research gaps, this paper serves as a definitive reference for researchers and practitioners seeking to harness LLMs in designing scalable, user-friendly phone GUI agents.

Summary

AI-Generated Summary

PDF194April 29, 2025