UI-Genie: Een zelfverbeterende aanpak voor het iteratief optimaliseren van MLLM-gebaseerde mobiele GUI-agenten
UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents
May 27, 2025
Auteurs: Han Xiao, Guozhi Wang, Yuxiang Chai, Zimu Lu, Weifeng Lin, Hao He, Lue Fan, Liuyang Bian, Rui Hu, Liang Liu, Shuai Ren, Yafei Wen, Xiaoxin Chen, Aojun Zhou, Hongsheng Li
cs.AI
Samenvatting
In dit artikel introduceren we UI-Genie, een zelfverbeterend raamwerk dat twee belangrijke uitdagingen bij GUI-agents aanpakt: het verifiëren van trajectresultaten is complex en hoogwaardige trainingsdata zijn niet schaalbaar. Deze uitdagingen worden respectievelijk aangepakt door een beloningsmodel en een zelfverbeterende pijplijn. Het beloningsmodel, UI-Genie-RM, beschikt over een afbeelding-tekst verweven architectuur die historische context efficiënt verwerkt en actieniveau- en takeniveau-beloningen verenigt. Om de training van UI-Genie-RM te ondersteunen, ontwikkelen we doelbewust ontworpen data-generatiestrategieën, waaronder op regels gebaseerde verificatie, gecontroleerde trajectcorruptie en harde negatieve mining. Om de tweede uitdaging aan te pakken, breidt een zelfverbeterende pijplijn geleidelijk oplosbare complexe GUI-taken uit door zowel de agent als de beloningsmodellen te verbeteren via beloning-gestuurde exploratie en resultaatverificatie in dynamische omgevingen. Voor het trainen van het model genereren we UI-Genie-RM-517k en UI-Genie-Agent-16k, waarmee de eerste beloningsspecifieke dataset voor GUI-agents wordt gevestigd, terwijl hoogwaardige synthetische trajectgeneratie zonder handmatige annotatie wordt gedemonstreerd. Experimentele resultaten laten zien dat UI-Genie state-of-the-art prestaties behaalt op meerdere GUI-agent benchmarks met drie generaties van data-model zelfverbetering. We maken onze volledige raamwerkimplementatie en gegenereerde datasets open source om verder onderzoek te faciliteren op https://github.com/Euphoria16/UI-Genie.
English
In this paper, we introduce UI-Genie, a self-improving framework addressing
two key challenges in GUI agents: verification of trajectory outcome is
challenging and high-quality training data are not scalable. These challenges
are addressed by a reward model and a self-improving pipeline, respectively.
The reward model, UI-Genie-RM, features an image-text interleaved architecture
that efficiently pro- cesses historical context and unifies action-level and
task-level rewards. To sup- port the training of UI-Genie-RM, we develop
deliberately-designed data genera- tion strategies including rule-based
verification, controlled trajectory corruption, and hard negative mining. To
address the second challenge, a self-improvement pipeline progressively expands
solvable complex GUI tasks by enhancing both the agent and reward models
through reward-guided exploration and outcome verification in dynamic
environments. For training the model, we generate UI- Genie-RM-517k and
UI-Genie-Agent-16k, establishing the first reward-specific dataset for GUI
agents while demonstrating high-quality synthetic trajectory gen- eration
without manual annotation. Experimental results show that UI-Genie achieves
state-of-the-art performance across multiple GUI agent benchmarks with three
generations of data-model self-improvement. We open-source our complete
framework implementation and generated datasets to facilitate further research
in https://github.com/Euphoria16/UI-Genie.