UI-Genie: Un Approccio di Auto-Miglioramento per Potenziare Iterativamente Agenti GUI Mobili Basati su MLLM

Abstract

In questo articolo presentiamo UI-Genie, un framework auto-migliorante che affronta due sfide chiave negli agenti GUI: la verifica dell'esito della traiettoria è complessa e i dati di addestramento di alta qualità non sono scalabili. Queste sfide vengono rispettivamente affrontate da un modello di ricompensa e da una pipeline di auto-miglioramento. Il modello di ricompensa, UI-Genie-RM, presenta un'architettura intervallata immagine-testo che elabora in modo efficiente il contesto storico e unisce le ricompense a livello di azione e a livello di task. Per supportare l'addestramento di UI-Genie-RM, sviluppiamo strategie di generazione dei dati appositamente progettate, tra cui verifica basata su regole, corruzione controllata della traiettoria e hard negative mining. Per affrontare la seconda sfida, una pipeline di auto-miglioramento espande progressivamente task GUI complessi risolvibili, migliorando sia l'agente che i modelli di ricompensa attraverso l'esplorazione guidata dalle ricompense e la verifica degli esiti in ambienti dinamici. Per l'addestramento del modello, generiamo UI-Genie-RM-517k e UI-Genie-Agent-16k, stabilendo il primo dataset specifico per le ricompense per gli agenti GUI, dimostrando al contempo la generazione di traiettorie sintetiche di alta qualità senza annotazione manuale. I risultati sperimentali mostrano che UI-Genie raggiunge prestazioni all'avanguardia su più benchmark per agenti GUI con tre generazioni di auto-miglioramento dati-modello. Rendiamo disponibile in open-source l'implementazione completa del framework e i dataset generati per facilitare ulteriori ricerche su https://github.com/Euphoria16/UI-Genie.

English

In this paper, we introduce UI-Genie, a self-improving framework addressing two key challenges in GUI agents: verification of trajectory outcome is challenging and high-quality training data are not scalable. These challenges are addressed by a reward model and a self-improving pipeline, respectively. The reward model, UI-Genie-RM, features an image-text interleaved architecture that efficiently pro- cesses historical context and unifies action-level and task-level rewards. To sup- port the training of UI-Genie-RM, we develop deliberately-designed data genera- tion strategies including rule-based verification, controlled trajectory corruption, and hard negative mining. To address the second challenge, a self-improvement pipeline progressively expands solvable complex GUI tasks by enhancing both the agent and reward models through reward-guided exploration and outcome verification in dynamic environments. For training the model, we generate UI- Genie-RM-517k and UI-Genie-Agent-16k, establishing the first reward-specific dataset for GUI agents while demonstrating high-quality synthetic trajectory gen- eration without manual annotation. Experimental results show that UI-Genie achieves state-of-the-art performance across multiple GUI agent benchmarks with three generations of data-model self-improvement. We open-source our complete framework implementation and generated datasets to facilitate further research in https://github.com/Euphoria16/UI-Genie.

UI-Genie: Un Approccio di Auto-Miglioramento per Potenziare Iterativamente Agenti GUI Mobili Basati su MLLM

UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents

Abstract

Support