UI-Genie: Ein selbstverbessernder Ansatz zur iterativen Steigerung von MLLM-basierten mobilen GUI-Agenten

papers.abstract

In diesem Artikel stellen wir UI-Genie vor, ein sich selbst verbesserndes Framework, das zwei zentrale Herausforderungen bei GUI-Agenten adressiert: die Überprüfung von Trajektorien-Ergebnissen ist schwierig und hochwertige Trainingsdaten sind nicht skalierbar. Diese Herausforderungen werden durch ein Belohnungsmodell und eine sich selbst verbessernde Pipeline gelöst. Das Belohnungsmodell, UI-Genie-RM, verfügt über eine Bild-Text-Architektur, die historische Kontexte effizient verarbeitet und Handlungs- sowie Aufgabenebene-Belohnungen vereinheitlicht. Um das Training von UI-Genie-RM zu unterstützen, entwickeln wir gezielt gestaltete Daten-Generierungsstrategien, einschließlich regelbasierter Überprüfung, kontrollierter Trajektorien-Korruption und Hard-Negative-Mining. Um die zweite Herausforderung zu bewältigen, erweitert eine Selbstverbesserungs-Pipeline schrittweise lösbare komplexe GUI-Aufgaben, indem sowohl der Agent als auch das Belohnungsmodell durch belohnungsgesteuerte Exploration und Ergebnisüberprüfung in dynamischen Umgebungen verbessert werden. Für das Training des Modells generieren wir UI-Genie-RM-517k und UI-Genie-Agent-16k, wodurch der erste belohnungsspezifische Datensatz für GUI-Agenten etabliert wird, während gleichzeitig hochwertige synthetische Trajektorien-Generierung ohne manuelle Annotation demonstriert wird. Experimentelle Ergebnisse zeigen, dass UI-Genie mit drei Generationen von Daten-Modell-Selbstverbesserung state-of-the-art Leistungen über mehrere GUI-Agenten-Benchmarks hinweg erreicht. Wir stellen unsere vollständige Framework-Implementierung und generierten Datensätze als Open Source zur Verfügung, um weitere Forschungen unter https://github.com/Euphoria16/UI-Genie zu erleichtern.

English

In this paper, we introduce UI-Genie, a self-improving framework addressing two key challenges in GUI agents: verification of trajectory outcome is challenging and high-quality training data are not scalable. These challenges are addressed by a reward model and a self-improving pipeline, respectively. The reward model, UI-Genie-RM, features an image-text interleaved architecture that efficiently pro- cesses historical context and unifies action-level and task-level rewards. To sup- port the training of UI-Genie-RM, we develop deliberately-designed data genera- tion strategies including rule-based verification, controlled trajectory corruption, and hard negative mining. To address the second challenge, a self-improvement pipeline progressively expands solvable complex GUI tasks by enhancing both the agent and reward models through reward-guided exploration and outcome verification in dynamic environments. For training the model, we generate UI- Genie-RM-517k and UI-Genie-Agent-16k, establishing the first reward-specific dataset for GUI agents while demonstrating high-quality synthetic trajectory gen- eration without manual annotation. Experimental results show that UI-Genie achieves state-of-the-art performance across multiple GUI agent benchmarks with three generations of data-model self-improvement. We open-source our complete framework implementation and generated datasets to facilitate further research in https://github.com/Euphoria16/UI-Genie.

UI-Genie: Ein selbstverbessernder Ansatz zur iterativen Steigerung von MLLM-basierten mobilen GUI-Agenten

UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents

papers.abstract

Support