UI-Genie: Uma Abordagem de Autoaprimoramento para Aumentar Iterativamente Agentes de Interface Gráfica Móvel Baseados em MLLM
UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents
May 27, 2025
Autores: Han Xiao, Guozhi Wang, Yuxiang Chai, Zimu Lu, Weifeng Lin, Hao He, Lue Fan, Liuyang Bian, Rui Hu, Liang Liu, Shuai Ren, Yafei Wen, Xiaoxin Chen, Aojun Zhou, Hongsheng Li
cs.AI
Resumo
Neste artigo, apresentamos o UI-Genie, um framework de autoaperfeiçoamento que aborda dois desafios fundamentais em agentes de interface gráfica (GUI): a verificação do resultado da trajetória é complexa e a obtenção de dados de treinamento de alta qualidade não é escalável. Esses desafios são tratados, respectivamente, por um modelo de recompensa e um pipeline de autoaperfeiçoamento. O modelo de recompensa, UI-Genie-RM, apresenta uma arquitetura intercalada de imagem-texto que processa eficientemente o contexto histórico e unifica recompensas em nível de ação e em nível de tarefa. Para apoiar o treinamento do UI-Genie-RM, desenvolvemos estratégias de geração de dados cuidadosamente projetadas, incluindo verificação baseada em regras, corrupção controlada de trajetórias e mineração de negativos difíceis. Para abordar o segundo desafio, um pipeline de autoaperfeiçoamento expande progressivamente tarefas complexas de GUI solucionáveis, aprimorando tanto o agente quanto os modelos de recompensa por meio de exploração guiada por recompensas e verificação de resultados em ambientes dinâmicos. Para o treinamento do modelo, geramos os conjuntos de dados UI-Genie-RM-517k e UI-Genie-Agent-16k, estabelecendo o primeiro conjunto de dados específico para recompensas em agentes de GUI, ao mesmo tempo em que demonstramos a geração de trajetórias sintéticas de alta qualidade sem anotação manual. Os resultados experimentais mostram que o UI-Genie alcança desempenho de ponta em vários benchmarks de agentes de GUI com três gerações de autoaperfeiçoamento de dados e modelos. Disponibilizamos a implementação completa do framework e os conjuntos de dados gerados para facilitar pesquisas futuras em https://github.com/Euphoria16/UI-Genie.
English
In this paper, we introduce UI-Genie, a self-improving framework addressing
two key challenges in GUI agents: verification of trajectory outcome is
challenging and high-quality training data are not scalable. These challenges
are addressed by a reward model and a self-improving pipeline, respectively.
The reward model, UI-Genie-RM, features an image-text interleaved architecture
that efficiently pro- cesses historical context and unifies action-level and
task-level rewards. To sup- port the training of UI-Genie-RM, we develop
deliberately-designed data genera- tion strategies including rule-based
verification, controlled trajectory corruption, and hard negative mining. To
address the second challenge, a self-improvement pipeline progressively expands
solvable complex GUI tasks by enhancing both the agent and reward models
through reward-guided exploration and outcome verification in dynamic
environments. For training the model, we generate UI- Genie-RM-517k and
UI-Genie-Agent-16k, establishing the first reward-specific dataset for GUI
agents while demonstrating high-quality synthetic trajectory gen- eration
without manual annotation. Experimental results show that UI-Genie achieves
state-of-the-art performance across multiple GUI agent benchmarks with three
generations of data-model self-improvement. We open-source our complete
framework implementation and generated datasets to facilitate further research
in https://github.com/Euphoria16/UI-Genie.