ChatPaper.aiChatPaper

UI-Voyager: Саморазвивающийся GUI-агент, обучающийся на ошибках

UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience

March 25, 2026
Авторы: Zichuan Lin, Feiyu Liu, Yijun Yang, Jiafei Lyu, Yiming Gao, Yicheng Liu, Zhicong Lu, Yangbin Yu, Mingyu Yang, Junyou Li, Deheng Ye, Jie Jiang
cs.AI

Аннотация

Автономные мобильные агенты с графическим интерфейсом привлекают все больше внимания с развитием мультимодальных больших языковых моделей (МБЯМ). Однако существующие методы по-прежнему страдают от неэффективного обучения на неудачных траекториях и нечеткого распределения заслуг при разреженных вознаграждениях в долгосрочных задачах работы с GUI. Для решения этой проблемы мы предлагаем UI-Voyager — новый двухэтапный саморазвивающийся мобильный агент для работы с графическим интерфейсом. На первом этапе мы применяем тонкую настройку с отклонениями (Rejection Fine-Tuning, RFT), которая обеспечивает непрерывную коэволюцию данных и моделей в полностью автономном цикле. Второй этап представляет собой групповое относительное самообучение (Group Relative Self-Distillation, GRSD), которое идентифицирует критические точки ветвления в групповых прогонах и создает плотный пошаговый контроль на основе успешных траекторий для коррекции неудачных. Многочисленные эксперименты на AndroidWorld показывают, что наша модель объемом 4B достигает показателя успеха Pass@1 в 81.0%, превосходя многие современные базовые методы и превышая уровень человека. Абляционные исследования и case studies дополнительно подтверждают эффективность GRSD. Наш метод представляет собой значительный шаг к эффективной, саморазвивающейся и высокопроизводительной автоматизации мобильных GUI без дорогостоящей ручной разметки данных.
English
Autonomous mobile GUI agents have attracted increasing attention along with the advancement of Multimodal Large Language Models (MLLMs). However, existing methods still suffer from inefficient learning from failed trajectories and ambiguous credit assignment under sparse rewards for long-horizon GUI tasks. To that end, we propose UI-Voyager, a novel two-stage self-evolving mobile GUI agent. In the first stage, we employ Rejection Fine-Tuning (RFT), which enables the continuous co-evolution of data and models in a fully autonomous loop. The second stage introduces Group Relative Self-Distillation (GRSD), which identifies critical fork points in group rollouts and constructs dense step-level supervision from successful trajectories to correct failed ones. Extensive experiments on AndroidWorld show that our 4B model achieves an 81.0% Pass@1 success rate, outperforming numerous recent baselines and exceeding human-level performance. Ablation and case studies further verify the effectiveness of GRSD. Our method represents a significant leap toward efficient, self-evolving, and high-performance mobile GUI automation without expensive manual data annotation.
PDF292March 27, 2026