ChatPaper.aiChatPaper

UI-Voyager: Un agente GUI auto-evolvente che apprende dalle esperienze fallite

UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience

March 25, 2026
Autori: Zichuan Lin, Feiyu Liu, Yijun Yang, Jiafei Lyu, Yiming Gao, Yicheng Liu, Zhicong Lu, Yangbin Yu, Mingyu Yang, Junyou Li, Deheng Ye, Jie Jiang
cs.AI

Abstract

Con l'avanzamento dei Modelli Linguistici Multimediali (MLLM), gli agenti autonomi mobili con interfaccia grafica (GUI) stanno attirando un'attenzione crescente. Tuttavia, i metodi esistenti continuano a soffrire di un apprendimento inefficiente dalle traiettorie fallite e di un'assegnazione di credito ambigua in contesti di ricompensa sparsa per compiti GUI a lungo termine. A tal fine, proponiamo UI-Voyager, un innovativo agente GUI mobile a due stadi con auto-evoluzione. Nella prima fase, impieghiamo il Rejection Fine-Tuning (RFT), che consente la co-evoluzione continua di dati e modelli in un ciclo completamente autonomo. La seconda fase introduce il Group Relative Self-Distillation (GRSD), che identifica i punti critici di diramazione nelle esecuzioni di gruppo e costruisce una supervisione densa a livello di passo dalle traiettorie di successo per correggere quelle fallite. Esperimenti estensivi su AndroidWorld dimostrano che il nostro modello da 4B raggiunge un tasso di successo Pass@1 dell'81,0%, superando numerosi benchmark recenti e superando le prestazioni umane. Studi di ablazione e casi di studio verificano ulteriormente l'efficacia del GRSD. Il nostro metodo rappresenta un significativo balzo in avanti verso l'automazione GUI mobile efficiente, auto-evolutiva e ad alte prestazioni, senza la necessità di costose annotazioni manuali dei dati.
English
Autonomous mobile GUI agents have attracted increasing attention along with the advancement of Multimodal Large Language Models (MLLMs). However, existing methods still suffer from inefficient learning from failed trajectories and ambiguous credit assignment under sparse rewards for long-horizon GUI tasks. To that end, we propose UI-Voyager, a novel two-stage self-evolving mobile GUI agent. In the first stage, we employ Rejection Fine-Tuning (RFT), which enables the continuous co-evolution of data and models in a fully autonomous loop. The second stage introduces Group Relative Self-Distillation (GRSD), which identifies critical fork points in group rollouts and constructs dense step-level supervision from successful trajectories to correct failed ones. Extensive experiments on AndroidWorld show that our 4B model achieves an 81.0% Pass@1 success rate, outperforming numerous recent baselines and exceeding human-level performance. Ablation and case studies further verify the effectiveness of GRSD. Our method represents a significant leap toward efficient, self-evolving, and high-performance mobile GUI automation without expensive manual data annotation.
PDF292March 27, 2026