UI-Genie: Un Approccio di Auto-Miglioramento per Potenziare Iterativamente Agenti GUI Mobili Basati su MLLM
UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents
May 27, 2025
Autori: Han Xiao, Guozhi Wang, Yuxiang Chai, Zimu Lu, Weifeng Lin, Hao He, Lue Fan, Liuyang Bian, Rui Hu, Liang Liu, Shuai Ren, Yafei Wen, Xiaoxin Chen, Aojun Zhou, Hongsheng Li
cs.AI
Abstract
In questo articolo presentiamo UI-Genie, un framework auto-migliorante che affronta due sfide chiave negli agenti GUI: la verifica dell'esito della traiettoria è complessa e i dati di addestramento di alta qualità non sono scalabili. Queste sfide vengono rispettivamente affrontate da un modello di ricompensa e da una pipeline di auto-miglioramento. Il modello di ricompensa, UI-Genie-RM, presenta un'architettura intervallata immagine-testo che elabora in modo efficiente il contesto storico e unisce le ricompense a livello di azione e a livello di task. Per supportare l'addestramento di UI-Genie-RM, sviluppiamo strategie di generazione dei dati appositamente progettate, tra cui verifica basata su regole, corruzione controllata della traiettoria e hard negative mining. Per affrontare la seconda sfida, una pipeline di auto-miglioramento espande progressivamente task GUI complessi risolvibili, migliorando sia l'agente che i modelli di ricompensa attraverso l'esplorazione guidata dalle ricompense e la verifica degli esiti in ambienti dinamici. Per l'addestramento del modello, generiamo UI-Genie-RM-517k e UI-Genie-Agent-16k, stabilendo il primo dataset specifico per le ricompense per gli agenti GUI, dimostrando al contempo la generazione di traiettorie sintetiche di alta qualità senza annotazione manuale. I risultati sperimentali mostrano che UI-Genie raggiunge prestazioni all'avanguardia su più benchmark per agenti GUI con tre generazioni di auto-miglioramento dati-modello. Rendiamo disponibile in open-source l'implementazione completa del framework e i dataset generati per facilitare ulteriori ricerche su https://github.com/Euphoria16/UI-Genie.
English
In this paper, we introduce UI-Genie, a self-improving framework addressing
two key challenges in GUI agents: verification of trajectory outcome is
challenging and high-quality training data are not scalable. These challenges
are addressed by a reward model and a self-improving pipeline, respectively.
The reward model, UI-Genie-RM, features an image-text interleaved architecture
that efficiently pro- cesses historical context and unifies action-level and
task-level rewards. To sup- port the training of UI-Genie-RM, we develop
deliberately-designed data genera- tion strategies including rule-based
verification, controlled trajectory corruption, and hard negative mining. To
address the second challenge, a self-improvement pipeline progressively expands
solvable complex GUI tasks by enhancing both the agent and reward models
through reward-guided exploration and outcome verification in dynamic
environments. For training the model, we generate UI- Genie-RM-517k and
UI-Genie-Agent-16k, establishing the first reward-specific dataset for GUI
agents while demonstrating high-quality synthetic trajectory gen- eration
without manual annotation. Experimental results show that UI-Genie achieves
state-of-the-art performance across multiple GUI agent benchmarks with three
generations of data-model self-improvement. We open-source our complete
framework implementation and generated datasets to facilitate further research
in https://github.com/Euphoria16/UI-Genie.