UI-Genie: Een zelfverbeterende aanpak voor het iteratief optimaliseren van MLLM-gebaseerde mobiele GUI-agenten

Samenvatting

In dit artikel introduceren we UI-Genie, een zelfverbeterend raamwerk dat twee belangrijke uitdagingen bij GUI-agents aanpakt: het verifiëren van trajectresultaten is complex en hoogwaardige trainingsdata zijn niet schaalbaar. Deze uitdagingen worden respectievelijk aangepakt door een beloningsmodel en een zelfverbeterende pijplijn. Het beloningsmodel, UI-Genie-RM, beschikt over een afbeelding-tekst verweven architectuur die historische context efficiënt verwerkt en actieniveau- en takeniveau-beloningen verenigt. Om de training van UI-Genie-RM te ondersteunen, ontwikkelen we doelbewust ontworpen data-generatiestrategieën, waaronder op regels gebaseerde verificatie, gecontroleerde trajectcorruptie en harde negatieve mining. Om de tweede uitdaging aan te pakken, breidt een zelfverbeterende pijplijn geleidelijk oplosbare complexe GUI-taken uit door zowel de agent als de beloningsmodellen te verbeteren via beloning-gestuurde exploratie en resultaatverificatie in dynamische omgevingen. Voor het trainen van het model genereren we UI-Genie-RM-517k en UI-Genie-Agent-16k, waarmee de eerste beloningsspecifieke dataset voor GUI-agents wordt gevestigd, terwijl hoogwaardige synthetische trajectgeneratie zonder handmatige annotatie wordt gedemonstreerd. Experimentele resultaten laten zien dat UI-Genie state-of-the-art prestaties behaalt op meerdere GUI-agent benchmarks met drie generaties van data-model zelfverbetering. We maken onze volledige raamwerkimplementatie en gegenereerde datasets open source om verder onderzoek te faciliteren op https://github.com/Euphoria16/UI-Genie.

English

In this paper, we introduce UI-Genie, a self-improving framework addressing two key challenges in GUI agents: verification of trajectory outcome is challenging and high-quality training data are not scalable. These challenges are addressed by a reward model and a self-improving pipeline, respectively. The reward model, UI-Genie-RM, features an image-text interleaved architecture that efficiently pro- cesses historical context and unifies action-level and task-level rewards. To sup- port the training of UI-Genie-RM, we develop deliberately-designed data genera- tion strategies including rule-based verification, controlled trajectory corruption, and hard negative mining. To address the second challenge, a self-improvement pipeline progressively expands solvable complex GUI tasks by enhancing both the agent and reward models through reward-guided exploration and outcome verification in dynamic environments. For training the model, we generate UI- Genie-RM-517k and UI-Genie-Agent-16k, establishing the first reward-specific dataset for GUI agents while demonstrating high-quality synthetic trajectory gen- eration without manual annotation. Experimental results show that UI-Genie achieves state-of-the-art performance across multiple GUI agent benchmarks with three generations of data-model self-improvement. We open-source our complete framework implementation and generated datasets to facilitate further research in https://github.com/Euphoria16/UI-Genie.

UI-Genie: Een zelfverbeterende aanpak voor het iteratief optimaliseren van MLLM-gebaseerde mobiele GUI-agenten

UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents

Samenvatting

Support