Mobile-Agent-v3: Grundlegende Agenten für die GUI-Automatisierung
Mobile-Agent-v3: Foundamental Agents for GUI Automation
August 21, 2025
papers.authors: Jiabo Ye, Xi Zhang, Haiyang Xu, Haowei Liu, Junyang Wang, Zhaoqing Zhu, Ziwei Zheng, Feiyu Gao, Junjie Cao, Zhengxi Lu, Jitong Liao, Qi Zheng, Fei Huang, Jingren Zhou, Ming Yan
cs.AI
papers.abstract
Dieses Paper stellt GUI-Owl vor, ein grundlegendes GUI-Agentenmodell, das state-of-the-art Leistung unter Open-Source-End-to-End-Modellen auf zehn GUI-Benchmarks in Desktop- und Mobilumgebungen erzielt, die Grounding, Fragebeantwortung, Planung, Entscheidungsfindung und prozedurales Wissen abdecken. GUI-Owl-7B erreicht 66,4 auf AndroidWorld und 29,4 auf OSWorld. Darauf aufbauend schlagen wir Mobile-Agent-v3 vor, ein allgemeines GUI-Agenten-Framework, das die Leistung auf 73,3 auf AndroidWorld und 37,7 auf OSWorld weiter verbessert und damit einen neuen State-of-the-art für Open-Source-GUI-Agenten-Frameworks setzt. GUI-Owl integriert drei Schlüsselinnovationen: (1) Groß angelegte Umgebungsinfrastruktur: eine cloud-basierte virtuelle Umgebung, die Android, Ubuntu, macOS und Windows umfasst und unser Self-Evolving GUI Trajectory Production Framework ermöglicht. Dieses generiert hochwertige Interaktionsdaten durch automatisierte Abfragegenerierung und Korrektheitsvalidierung, wobei GUI-Owl genutzt wird, um Trajektorien iterativ zu verfeinern und so eine sich selbst verbessernde Schleife zu bilden. Es unterstützt diverse Datenpipelines und reduziert manuelle Annotation. (2) Vielfältige grundlegende Agenten-Fähigkeiten: Durch die Integration von UI-Grounding, Planung, Aktionssemantik und Denkmustern unterstützt GUI-Owl End-to-End-Entscheidungsfindung und kann als modulare Komponente in Multi-Agenten-Systemen fungieren. (3) Skalierbares Umgebungs-RL: Wir entwickeln ein skalierbares Reinforcement-Learning-Framework mit vollständig asynchronem Training für die Ausrichtung auf reale Anwendungen. Zudem führen wir Trajectory-aware Relative Policy Optimization (TRPO) für Online-RL ein, das 34,9 auf OSWorld erreicht. GUI-Owl und Mobile-Agent-v3 sind unter https://github.com/X-PLUG/MobileAgent Open-Source verfügbar.
English
This paper introduces GUI-Owl, a foundational GUI agent model that achieves
state-of-the-art performance among open-source end-to-end models on ten GUI
benchmarks across desktop and mobile environments, covering grounding, question
answering, planning, decision-making, and procedural knowledge. GUI-Owl-7B
achieves 66.4 on AndroidWorld and 29.4 on OSWorld. Building on this, we propose
Mobile-Agent-v3, a general-purpose GUI agent framework that further improves
performance to 73.3 on AndroidWorld and 37.7 on OSWorld, setting a new
state-of-the-art for open-source GUI agent frameworks. GUI-Owl incorporates
three key innovations: (1) Large-scale Environment Infrastructure: a
cloud-based virtual environment spanning Android, Ubuntu, macOS, and Windows,
enabling our Self-Evolving GUI Trajectory Production framework. This generates
high-quality interaction data via automated query generation and correctness
validation, leveraging GUI-Owl to refine trajectories iteratively, forming a
self-improving loop. It supports diverse data pipelines and reduces manual
annotation. (2) Diverse Foundational Agent Capabilities: by integrating UI
grounding, planning, action semantics, and reasoning patterns, GUI-Owl supports
end-to-end decision-making and can act as a modular component in multi-agent
systems. (3) Scalable Environment RL: we develop a scalable reinforcement
learning framework with fully asynchronous training for real-world alignment.
We also introduce Trajectory-aware Relative Policy Optimization (TRPO) for
online RL, achieving 34.9 on OSWorld. GUI-Owl and Mobile-Agent-v3 are
open-sourced at https://github.com/X-PLUG/MobileAgent.