UI-Voyager: Ein sich selbst entwickelnder GUI-Agent, der aus Fehlschlägen lernt
UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience
March 25, 2026
Autoren: Zichuan Lin, Feiyu Liu, Yijun Yang, Jiafei Lyu, Yiming Gao, Yicheng Liu, Zhicong Lu, Yangbin Yu, Mingyu Yang, Junyou Li, Deheng Ye, Jie Jiang
cs.AI
Zusammenfassung
Autonome mobile GUI-Agenten haben mit der Weiterentwicklung multimodaler großer Sprachmodelle (MLLMs) zunehmend an Aufmerksamkeit gewonnen. Bestehende Methoden leiden jedoch weiterhin unter ineffizientem Lernen aus fehlgeschlagenen Trajektorien und unklarer Kreditzuweisung bei spärlichen Belohnungen für langfristige GUI-Aufgaben. Zu diesem Zweck schlagen wir UI-Voyager vor, einen neuartigen, zweistufigen, sich selbst weiterentwickelnden mobilen GUI-Agenten. In der ersten Stufe setzen wir Rejection Fine-Tuning (RFT) ein, das die kontinuierliche Ko-Evolution von Daten und Modellen in einer vollständig autonomen Schleife ermöglicht. Die zweite Stufe führt Group Relative Self-Distillation (GRSD) ein, die kritische Verzweigungspunkte in Gruppen-Rollouts identifiziert und eine dichte, schrittweise Überwachung aus erfolgreichen Trajektorien konstruiert, um fehlgeschlagene zu korrigieren. Umfangreiche Experimente auf AndroidWorld zeigen, dass unser 4B-Modell eine Erfolgsrate von 81,0 % (Pass@1) erreicht, zahlreiche aktuelle Baseline-Methoden übertrifft und sogar menschliches Leistungsniveau überschreitet. Ablationsstudien und Fallstudien bestätigen weiterhin die Wirksamkeit von GRSD. Unser Verfahren stellt einen bedeutenden Schritt hin zu einer effizienten, sich selbst weiterentwickelnden und leistungsstarken mobilen GUI-Automatisierung ohne kostspielige manuelle Datenannotation dar.
English
Autonomous mobile GUI agents have attracted increasing attention along with the advancement of Multimodal Large Language Models (MLLMs). However, existing methods still suffer from inefficient learning from failed trajectories and ambiguous credit assignment under sparse rewards for long-horizon GUI tasks. To that end, we propose UI-Voyager, a novel two-stage self-evolving mobile GUI agent. In the first stage, we employ Rejection Fine-Tuning (RFT), which enables the continuous co-evolution of data and models in a fully autonomous loop. The second stage introduces Group Relative Self-Distillation (GRSD), which identifies critical fork points in group rollouts and constructs dense step-level supervision from successful trajectories to correct failed ones. Extensive experiments on AndroidWorld show that our 4B model achieves an 81.0% Pass@1 success rate, outperforming numerous recent baselines and exceeding human-level performance. Ablation and case studies further verify the effectiveness of GRSD. Our method represents a significant leap toward efficient, self-evolving, and high-performance mobile GUI automation without expensive manual data annotation.