UI-Genie: Самообучающийся подход для итеративного улучшения мобильных агентов с графическим интерфейсом на основе мультимодальных языковых моделей
UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents
May 27, 2025
Авторы: Han Xiao, Guozhi Wang, Yuxiang Chai, Zimu Lu, Weifeng Lin, Hao He, Lue Fan, Liuyang Bian, Rui Hu, Liang Liu, Shuai Ren, Yafei Wen, Xiaoxin Chen, Aojun Zhou, Hongsheng Li
cs.AI
Аннотация
В данной статье мы представляем UI-Genie, самообучающуюся структуру, которая решает две ключевые проблемы, связанные с агентами для графических интерфейсов (GUI): сложность проверки результатов траекторий и отсутствие масштабируемых высококачественных обучающих данных. Эти проблемы решаются с помощью модели вознаграждения и самообучающегося конвейера соответственно. Модель вознаграждения, UI-Genie-RM, обладает архитектурой, объединяющей изображения и текст, что позволяет эффективно обрабатывать исторический контекст и объединять вознаграждения на уровне действий и задач. Для поддержки обучения UI-Genie-RM мы разработали специальные стратегии генерации данных, включая проверку на основе правил, контролируемое искажение траекторий и поиск сложных негативных примеров. Для решения второй проблемы самообучающийся конвейер постепенно расширяет набор решаемых сложных задач GUI, улучшая как агента, так и модель вознаграждения через исследование, управляемое вознаграждением, и проверку результатов в динамических средах. Для обучения модели мы создали наборы данных UI-Genie-RM-517k и UI-Genie-Agent-16k, устанавливая первый набор данных, специфичный для вознаграждений в агентах GUI, и демонстрируя генерацию высококачественных синтетических траекторий без ручной аннотации. Результаты экспериментов показывают, что UI-Genie достигает наилучших результатов на нескольких тестах для агентов GUI благодаря трём поколениям самообучения модели и данных. Мы открываем исходный код нашей полной реализации структуры и сгенерированных наборов данных для содействия дальнейшим исследованиям на https://github.com/Euphoria16/UI-Genie.
English
In this paper, we introduce UI-Genie, a self-improving framework addressing
two key challenges in GUI agents: verification of trajectory outcome is
challenging and high-quality training data are not scalable. These challenges
are addressed by a reward model and a self-improving pipeline, respectively.
The reward model, UI-Genie-RM, features an image-text interleaved architecture
that efficiently pro- cesses historical context and unifies action-level and
task-level rewards. To sup- port the training of UI-Genie-RM, we develop
deliberately-designed data genera- tion strategies including rule-based
verification, controlled trajectory corruption, and hard negative mining. To
address the second challenge, a self-improvement pipeline progressively expands
solvable complex GUI tasks by enhancing both the agent and reward models
through reward-guided exploration and outcome verification in dynamic
environments. For training the model, we generate UI- Genie-RM-517k and
UI-Genie-Agent-16k, establishing the first reward-specific dataset for GUI
agents while demonstrating high-quality synthetic trajectory gen- eration
without manual annotation. Experimental results show that UI-Genie achieves
state-of-the-art performance across multiple GUI agent benchmarks with three
generations of data-model self-improvement. We open-source our complete
framework implementation and generated datasets to facilitate further research
in https://github.com/Euphoria16/UI-Genie.Summary
AI-Generated Summary