UI-Genie: Uma Abordagem de Autoaprimoramento para Aumentar Iterativamente Agentes de Interface Gráfica Móvel Baseados em MLLM

Resumo

Neste artigo, apresentamos o UI-Genie, um framework de autoaperfeiçoamento que aborda dois desafios fundamentais em agentes de interface gráfica (GUI): a verificação do resultado da trajetória é complexa e a obtenção de dados de treinamento de alta qualidade não é escalável. Esses desafios são tratados, respectivamente, por um modelo de recompensa e um pipeline de autoaperfeiçoamento. O modelo de recompensa, UI-Genie-RM, apresenta uma arquitetura intercalada de imagem-texto que processa eficientemente o contexto histórico e unifica recompensas em nível de ação e em nível de tarefa. Para apoiar o treinamento do UI-Genie-RM, desenvolvemos estratégias de geração de dados cuidadosamente projetadas, incluindo verificação baseada em regras, corrupção controlada de trajetórias e mineração de negativos difíceis. Para abordar o segundo desafio, um pipeline de autoaperfeiçoamento expande progressivamente tarefas complexas de GUI solucionáveis, aprimorando tanto o agente quanto os modelos de recompensa por meio de exploração guiada por recompensas e verificação de resultados em ambientes dinâmicos. Para o treinamento do modelo, geramos os conjuntos de dados UI-Genie-RM-517k e UI-Genie-Agent-16k, estabelecendo o primeiro conjunto de dados específico para recompensas em agentes de GUI, ao mesmo tempo em que demonstramos a geração de trajetórias sintéticas de alta qualidade sem anotação manual. Os resultados experimentais mostram que o UI-Genie alcança desempenho de ponta em vários benchmarks de agentes de GUI com três gerações de autoaperfeiçoamento de dados e modelos. Disponibilizamos a implementação completa do framework e os conjuntos de dados gerados para facilitar pesquisas futuras em https://github.com/Euphoria16/UI-Genie.

English

In this paper, we introduce UI-Genie, a self-improving framework addressing two key challenges in GUI agents: verification of trajectory outcome is challenging and high-quality training data are not scalable. These challenges are addressed by a reward model and a self-improving pipeline, respectively. The reward model, UI-Genie-RM, features an image-text interleaved architecture that efficiently pro- cesses historical context and unifies action-level and task-level rewards. To sup- port the training of UI-Genie-RM, we develop deliberately-designed data genera- tion strategies including rule-based verification, controlled trajectory corruption, and hard negative mining. To address the second challenge, a self-improvement pipeline progressively expands solvable complex GUI tasks by enhancing both the agent and reward models through reward-guided exploration and outcome verification in dynamic environments. For training the model, we generate UI- Genie-RM-517k and UI-Genie-Agent-16k, establishing the first reward-specific dataset for GUI agents while demonstrating high-quality synthetic trajectory gen- eration without manual annotation. Experimental results show that UI-Genie achieves state-of-the-art performance across multiple GUI agent benchmarks with three generations of data-model self-improvement. We open-source our complete framework implementation and generated datasets to facilitate further research in https://github.com/Euphoria16/UI-Genie.

UI-Genie: Uma Abordagem de Autoaprimoramento para Aumentar Iterativamente Agentes de Interface Gráfica Móvel Baseados em MLLM

UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents

Resumo

Support