UI-Genie: Un enfoque de auto-mejora para potenciar iterativamente agentes de GUI móviles basados en MLLM
UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents
May 27, 2025
Autores: Han Xiao, Guozhi Wang, Yuxiang Chai, Zimu Lu, Weifeng Lin, Hao He, Lue Fan, Liuyang Bian, Rui Hu, Liang Liu, Shuai Ren, Yafei Wen, Xiaoxin Chen, Aojun Zhou, Hongsheng Li
cs.AI
Resumen
En este artículo, presentamos UI-Genie, un marco de auto-mejora que aborda dos desafíos clave en los agentes de interfaz gráfica de usuario (GUI): la verificación del resultado de la trayectoria es complicada y los datos de entrenamiento de alta calidad no son escalables. Estos desafíos se abordan mediante un modelo de recompensa y una canalización de auto-mejora, respectivamente. El modelo de recompensa, UI-Genie-RM, presenta una arquitectura intercalada de imagen-texto que procesa eficientemente el contexto histórico y unifica las recompensas a nivel de acción y a nivel de tarea. Para apoyar el entrenamiento de UI-Genie-RM, desarrollamos estrategias de generación de datos diseñadas deliberadamente, incluyendo verificación basada en reglas, corrupción controlada de trayectorias y minería de negativos difíciles. Para abordar el segundo desafío, una canalización de auto-mejora expande progresivamente tareas complejas de GUI resolubles mediante la mejora tanto del agente como de los modelos de recompensa a través de la exploración guiada por recompensas y la verificación de resultados en entornos dinámicos. Para entrenar el modelo, generamos UI-Genie-RM-517k y UI-Genie-Agent-16k, estableciendo el primer conjunto de datos específico de recompensas para agentes de GUI, mientras demostramos la generación de trayectorias sintéticas de alta calidad sin anotación manual. Los resultados experimentales muestran que UI-Genie alcanza un rendimiento de vanguardia en múltiples benchmarks de agentes de GUI con tres generaciones de auto-mejora de datos y modelos. Hacemos público el código completo de nuestra implementación del marco y los conjuntos de datos generados para facilitar investigaciones futuras en https://github.com/Euphoria16/UI-Genie.
English
In this paper, we introduce UI-Genie, a self-improving framework addressing
two key challenges in GUI agents: verification of trajectory outcome is
challenging and high-quality training data are not scalable. These challenges
are addressed by a reward model and a self-improving pipeline, respectively.
The reward model, UI-Genie-RM, features an image-text interleaved architecture
that efficiently pro- cesses historical context and unifies action-level and
task-level rewards. To sup- port the training of UI-Genie-RM, we develop
deliberately-designed data genera- tion strategies including rule-based
verification, controlled trajectory corruption, and hard negative mining. To
address the second challenge, a self-improvement pipeline progressively expands
solvable complex GUI tasks by enhancing both the agent and reward models
through reward-guided exploration and outcome verification in dynamic
environments. For training the model, we generate UI- Genie-RM-517k and
UI-Genie-Agent-16k, establishing the first reward-specific dataset for GUI
agents while demonstrating high-quality synthetic trajectory gen- eration
without manual annotation. Experimental results show that UI-Genie achieves
state-of-the-art performance across multiple GUI agent benchmarks with three
generations of data-model self-improvement. We open-source our complete
framework implementation and generated datasets to facilitate further research
in https://github.com/Euphoria16/UI-Genie.Summary
AI-Generated Summary