UI-Voyager: Um Agente de Interface Gráfica Autoevolutivo que Aprende por Meio de Experiências de Falha

Resumo

Os agentes autónomos de GUI móvel têm atraído crescente atenção com o avanço dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs). No entanto, os métodos existentes ainda sofrem com aprendizagem ineficiente a partir de trajetórias falhadas e atribuição de crédito ambígua sob recompensas esparsas para tarefas de GUI de longo horizonte. Para tal, propomos o UI-Voyager, um novo agente de GUI móvel de auto-evolução em duas fases. Na primeira fase, empregamos o Ajuste Fino por Rejeição (RFT), que permite a co-evolução contínua de dados e modelos num ciclo totalmente autónomo. A segunda fase introduz a Auto-Distilação Relativa de Grupo (GRSD), que identifica pontos críticos de bifurcação em rollouts de grupo e constrói supervisão densa ao nível do passo a partir de trajetórias bem-sucedidas para corrigir as falhadas. Experimentos extensivos no AndroidWorld mostram que o nosso modelo de 4B atinge uma taxa de sucesso Pass@1 de 81,0%, superando numerosas linhas de base recentes e excedendo o desempenho humano. Estudos de ablação e casos práticos verificam ainda a eficácia da GRSD. O nosso método representa um salto significativo em direção a uma automação de GUI móvel eficiente, auto-evolutiva e de alto desempenho sem a necessidade de anotação manual dispendiosa de dados.

English

Autonomous mobile GUI agents have attracted increasing attention along with the advancement of Multimodal Large Language Models (MLLMs). However, existing methods still suffer from inefficient learning from failed trajectories and ambiguous credit assignment under sparse rewards for long-horizon GUI tasks. To that end, we propose UI-Voyager, a novel two-stage self-evolving mobile GUI agent. In the first stage, we employ Rejection Fine-Tuning (RFT), which enables the continuous co-evolution of data and models in a fully autonomous loop. The second stage introduces Group Relative Self-Distillation (GRSD), which identifies critical fork points in group rollouts and constructs dense step-level supervision from successful trajectories to correct failed ones. Extensive experiments on AndroidWorld show that our 4B model achieves an 81.0% Pass@1 success rate, outperforming numerous recent baselines and exceeding human-level performance. Ablation and case studies further verify the effectiveness of GRSD. Our method represents a significant leap toward efficient, self-evolving, and high-performance mobile GUI automation without expensive manual data annotation.

UI-Voyager: Um Agente de Interface Gráfica Autoevolutivo que Aprende por Meio de Experiências de Falha

UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience

Resumo

Support