UI-Genie : Une approche d'auto-amélioration pour renforcer itérativement les agents d'interface graphique mobile basés sur MLLM
UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents
May 27, 2025
Auteurs: Han Xiao, Guozhi Wang, Yuxiang Chai, Zimu Lu, Weifeng Lin, Hao He, Lue Fan, Liuyang Bian, Rui Hu, Liang Liu, Shuai Ren, Yafei Wen, Xiaoxin Chen, Aojun Zhou, Hongsheng Li
cs.AI
Résumé
Dans cet article, nous présentons UI-Genie, un cadre auto-améliorant qui aborde deux défis majeurs des agents d'interface graphique (GUI) : la vérification des résultats des trajectoires est complexe et les données d'entraînement de haute qualité ne sont pas extensibles. Ces défis sont respectivement résolus par un modèle de récompense et un pipeline d'auto-amélioration. Le modèle de récompense, UI-Genie-RM, intègre une architecture entrelaçant images et texte qui traite efficacement le contexte historique et unifie les récompenses au niveau des actions et des tâches. Pour soutenir l'entraînement de UI-Genie-RM, nous développons des stratégies de génération de données soigneusement conçues, incluant la vérification basée sur des règles, la corruption contrôlée des trajectoires et l'extraction de négatifs difficiles. Pour relever le second défi, un pipeline d'auto-amélioration étend progressivement les tâches complexes résolubles des GUI en améliorant à la fois l'agent et les modèles de récompense grâce à une exploration guidée par les récompenses et une vérification des résultats dans des environnements dynamiques. Pour l'entraînement du modèle, nous générons UI-Genie-RM-517k et UI-Genie-Agent-16k, établissant ainsi le premier ensemble de données spécifique aux récompenses pour les agents GUI tout en démontrant une génération de trajectoires synthétiques de haute qualité sans annotation manuelle. Les résultats expérimentaux montrent que UI-Genie atteint des performances de pointe sur plusieurs benchmarks d'agents GUI grâce à trois générations d'auto-amélioration données-modèle. Nous mettons à disposition en open source l'implémentation complète de notre cadre ainsi que les ensembles de données générés pour faciliter les recherches futures sur https://github.com/Euphoria16/UI-Genie.
English
In this paper, we introduce UI-Genie, a self-improving framework addressing
two key challenges in GUI agents: verification of trajectory outcome is
challenging and high-quality training data are not scalable. These challenges
are addressed by a reward model and a self-improving pipeline, respectively.
The reward model, UI-Genie-RM, features an image-text interleaved architecture
that efficiently pro- cesses historical context and unifies action-level and
task-level rewards. To sup- port the training of UI-Genie-RM, we develop
deliberately-designed data genera- tion strategies including rule-based
verification, controlled trajectory corruption, and hard negative mining. To
address the second challenge, a self-improvement pipeline progressively expands
solvable complex GUI tasks by enhancing both the agent and reward models
through reward-guided exploration and outcome verification in dynamic
environments. For training the model, we generate UI- Genie-RM-517k and
UI-Genie-Agent-16k, establishing the first reward-specific dataset for GUI
agents while demonstrating high-quality synthetic trajectory gen- eration
without manual annotation. Experimental results show that UI-Genie achieves
state-of-the-art performance across multiple GUI agent benchmarks with three
generations of data-model self-improvement. We open-source our complete
framework implementation and generated datasets to facilitate further research
in https://github.com/Euphoria16/UI-Genie.Summary
AI-Generated Summary