UI-Genie: Ein selbstverbessernder Ansatz zur iterativen Steigerung von MLLM-basierten mobilen GUI-Agenten
UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents
May 27, 2025
Autoren: Han Xiao, Guozhi Wang, Yuxiang Chai, Zimu Lu, Weifeng Lin, Hao He, Lue Fan, Liuyang Bian, Rui Hu, Liang Liu, Shuai Ren, Yafei Wen, Xiaoxin Chen, Aojun Zhou, Hongsheng Li
cs.AI
Zusammenfassung
In diesem Artikel stellen wir UI-Genie vor, ein sich selbst verbesserndes Framework, das zwei zentrale Herausforderungen bei GUI-Agenten adressiert: die Überprüfung von Trajektorien-Ergebnissen ist schwierig und hochwertige Trainingsdaten sind nicht skalierbar. Diese Herausforderungen werden durch ein Belohnungsmodell und eine sich selbst verbessernde Pipeline gelöst. Das Belohnungsmodell, UI-Genie-RM, verfügt über eine Bild-Text-Architektur, die historische Kontexte effizient verarbeitet und Handlungs- sowie Aufgabenebene-Belohnungen vereinheitlicht. Um das Training von UI-Genie-RM zu unterstützen, entwickeln wir gezielt gestaltete Daten-Generierungsstrategien, einschließlich regelbasierter Überprüfung, kontrollierter Trajektorien-Korruption und Hard-Negative-Mining. Um die zweite Herausforderung zu bewältigen, erweitert eine Selbstverbesserungs-Pipeline schrittweise lösbare komplexe GUI-Aufgaben, indem sowohl der Agent als auch das Belohnungsmodell durch belohnungsgesteuerte Exploration und Ergebnisüberprüfung in dynamischen Umgebungen verbessert werden. Für das Training des Modells generieren wir UI-Genie-RM-517k und UI-Genie-Agent-16k, wodurch der erste belohnungsspezifische Datensatz für GUI-Agenten etabliert wird, während gleichzeitig hochwertige synthetische Trajektorien-Generierung ohne manuelle Annotation demonstriert wird. Experimentelle Ergebnisse zeigen, dass UI-Genie mit drei Generationen von Daten-Modell-Selbstverbesserung state-of-the-art Leistungen über mehrere GUI-Agenten-Benchmarks hinweg erreicht. Wir stellen unsere vollständige Framework-Implementierung und generierten Datensätze als Open Source zur Verfügung, um weitere Forschungen unter https://github.com/Euphoria16/UI-Genie zu erleichtern.
English
In this paper, we introduce UI-Genie, a self-improving framework addressing
two key challenges in GUI agents: verification of trajectory outcome is
challenging and high-quality training data are not scalable. These challenges
are addressed by a reward model and a self-improving pipeline, respectively.
The reward model, UI-Genie-RM, features an image-text interleaved architecture
that efficiently pro- cesses historical context and unifies action-level and
task-level rewards. To sup- port the training of UI-Genie-RM, we develop
deliberately-designed data genera- tion strategies including rule-based
verification, controlled trajectory corruption, and hard negative mining. To
address the second challenge, a self-improvement pipeline progressively expands
solvable complex GUI tasks by enhancing both the agent and reward models
through reward-guided exploration and outcome verification in dynamic
environments. For training the model, we generate UI- Genie-RM-517k and
UI-Genie-Agent-16k, establishing the first reward-specific dataset for GUI
agents while demonstrating high-quality synthetic trajectory gen- eration
without manual annotation. Experimental results show that UI-Genie achieves
state-of-the-art performance across multiple GUI agent benchmarks with three
generations of data-model self-improvement. We open-source our complete
framework implementation and generated datasets to facilitate further research
in https://github.com/Euphoria16/UI-Genie.Summary
AI-Generated Summary