LLM 기반 GUI 에이전트를 활용한 휴대폰 자동화: 진전과 전망에 대한 조사
LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects
April 28, 2025
저자: Guangyi Liu, Pengxiang Zhao, Liang Liu, Yaxuan Guo, Han Xiao, Weifeng Lin, Yuxiang Chai, Yue Han, Shuai Ren, Hao Wang, Xiaoyu Liang, Wenhao Wang, Tianze Wu, Linghao Li, Hao Wang, Guanjing Xiong, Yong Liu, Hongsheng Li
cs.AI
초록
대규모 언어 모델(LLM)의 급속한 부상과 함께, 휴대폰 자동화는 혁신적인 변화를 겪어 왔습니다. 본 논문은 LLM 기반 휴대폰 GUI 에이전트를 체계적으로 검토하며, 스크립트 기반 자동화에서 지능적이고 적응형 시스템으로의 진화를 강조합니다. 먼저 주요 과제인 (i) 제한된 일반성, (ii) 높은 유지보수 부담, (iii) 약한 의도 이해를 맥락화하고, LLM이 고급 언어 이해, 다중 모드 인지, 강력한 의사결정을 통해 이러한 문제를 어떻게 해결하는지 보여줍니다. 그런 다음, 기본 에이전트 프레임워크(단일 에이전트, 다중 에이전트, 계획 후 실행), 모델링 접근 방식(프롬프트 엔지니어링, 학습 기반), 필수 데이터셋 및 벤치마크를 포함한 분류 체계를 제안합니다. 또한, 사용자 의도와 GUI 작업을 연결하는 작업별 아키텍처, 지도 미세 조정, 강화 학습 전략을 상세히 설명합니다. 마지막으로, 데이터셋 다양성, 온디바이스 배포 효율성, 사용자 중심 적응, 보안 문제와 같은 개방형 과제를 논의하며, 이 빠르게 진화하는 분야에 대한 미래 지향적 통찰을 제공합니다. 본 논문은 구조화된 개요를 제공하고 시급한 연구 격차를 식별함으로써, 확장 가능하고 사용자 친화적인 휴대폰 GUI 에이전트 설계에 LLM을 활용하려는 연구자 및 실무자들에게 결정적인 참고 자료 역할을 합니다.
English
With the rapid rise of large language models (LLMs), phone automation has
undergone transformative changes. This paper systematically reviews LLM-driven
phone GUI agents, highlighting their evolution from script-based automation to
intelligent, adaptive systems. We first contextualize key challenges, (i)
limited generality, (ii) high maintenance overhead, and (iii) weak intent
comprehension, and show how LLMs address these issues through advanced language
understanding, multimodal perception, and robust decision-making. We then
propose a taxonomy covering fundamental agent frameworks (single-agent,
multi-agent, plan-then-act), modeling approaches (prompt engineering,
training-based), and essential datasets and benchmarks. Furthermore, we detail
task-specific architectures, supervised fine-tuning, and reinforcement learning
strategies that bridge user intent and GUI operations. Finally, we discuss open
challenges such as dataset diversity, on-device deployment efficiency,
user-centric adaptation, and security concerns, offering forward-looking
insights into this rapidly evolving field. By providing a structured overview
and identifying pressing research gaps, this paper serves as a definitive
reference for researchers and practitioners seeking to harness LLMs in
designing scalable, user-friendly phone GUI agents.Summary
AI-Generated Summary