UI-Voyager: 실패 경험을 통한 자기 진화형 GUI 에이전트 학습
UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience
March 25, 2026
저자: Zichuan Lin, Feiyu Liu, Yijun Yang, Jiafei Lyu, Yiming Gao, Yicheng Liu, Zhicong Lu, Yangbin Yu, Mingyu Yang, Junyou Li, Deheng Ye, Jie Jiang
cs.AI
초록
자율 주행 모바일 GUI 에이전트는 멀티모달 대규모 언어 모델(MLLMs)의 발전과 함께 점점 더 많은 관심을 끌고 있습니다. 그러나 기존 방법론은 여전히 장기간 GUI 작업에서 실패한 궤적로부터의 비효율적 학습과 희소 보상 하에서의 모호한 크레딧 할당 문제를 겪고 있습니다. 이를 해결하기 위해 우리는 새로운 2단계 자기 진화형 모바일 GUI 에이전트인 UI-Voyager를 제안합니다. 첫 번째 단계에서는 완전 자율 루프 내에서 데이터와 모델의 지속적인 공동 진화를 가능하게 하는 Rejection Fine-Tuning(RFT)을 적용합니다. 두 번째 단계에서는 그룹 롤아웃에서 중요한 분기점을 식별하고 성공한 궤적로부터 조밀한 단계별 감독 정보를 구성하여 실패한 궤적을 수정하는 Group Relative Self-Distillation(GRSD)을 도입합니다. AndroidWorld에서의 광범위한 실험 결과, 우리의 4B 모델은 81.0%의 Pass@1 성공률을 달성하여 여러 최근 기준선들을 능가하고 인간 수준의 성능을 초과함을 보여줍니다. 애블레이션 및 사례 연구는 GRSD의 효과를 추가로 입증합니다. 우리의 방법론은 값비싼 수동 데이터 주석 없이도 효율적이고 자기 진화적이며 고성능인 모바일 GUI 자동화를 향한 중요한 도약을 나타냅니다.
English
Autonomous mobile GUI agents have attracted increasing attention along with the advancement of Multimodal Large Language Models (MLLMs). However, existing methods still suffer from inefficient learning from failed trajectories and ambiguous credit assignment under sparse rewards for long-horizon GUI tasks. To that end, we propose UI-Voyager, a novel two-stage self-evolving mobile GUI agent. In the first stage, we employ Rejection Fine-Tuning (RFT), which enables the continuous co-evolution of data and models in a fully autonomous loop. The second stage introduces Group Relative Self-Distillation (GRSD), which identifies critical fork points in group rollouts and constructs dense step-level supervision from successful trajectories to correct failed ones. Extensive experiments on AndroidWorld show that our 4B model achieves an 81.0% Pass@1 success rate, outperforming numerous recent baselines and exceeding human-level performance. Ablation and case studies further verify the effectiveness of GRSD. Our method represents a significant leap toward efficient, self-evolving, and high-performance mobile GUI automation without expensive manual data annotation.