Mobile-Agent-v3 : Agents fondamentaux pour l'automatisation des interfaces graphiques
Mobile-Agent-v3: Foundamental Agents for GUI Automation
August 21, 2025
papers.authors: Jiabo Ye, Xi Zhang, Haiyang Xu, Haowei Liu, Junyang Wang, Zhaoqing Zhu, Ziwei Zheng, Feiyu Gao, Junjie Cao, Zhengxi Lu, Jitong Liao, Qi Zheng, Fei Huang, Jingren Zhou, Ming Yan
cs.AI
papers.abstract
Cet article présente GUI-Owl, un modèle d'agent GUI fondamental qui atteint des performances de pointe parmi les modèles open-source de bout en bout sur dix benchmarks GUI couvrant les environnements de bureau et mobiles, incluant l'ancrage, la réponse à des questions, la planification, la prise de décision et les connaissances procédurales. GUI-Owl-7B obtient un score de 66,4 sur AndroidWorld et de 29,4 sur OSWorld. Sur cette base, nous proposons Mobile-Agent-v3, un cadre d'agent GUI polyvalent qui améliore encore les performances à 73,3 sur AndroidWorld et 37,7 sur OSWorld, établissant ainsi un nouveau record pour les cadres d'agents GUI open-source. GUI-Owl intègre trois innovations clés : (1) Infrastructure d'environnement à grande échelle : un environnement virtuel basé sur le cloud couvrant Android, Ubuntu, macOS et Windows, permettant notre cadre de production de trajectoires GUI auto-évolutif. Celui-ci génère des données d'interaction de haute qualité via la génération automatisée de requêtes et la validation de leur exactitude, en exploitant GUI-Owl pour affiner les trajectoires de manière itérative, formant ainsi une boucle d'auto-amélioration. Il prend en charge divers pipelines de données et réduit l'annotation manuelle. (2) Capacités fondamentales diversifiées de l'agent : en intégrant l'ancrage d'interface utilisateur, la planification, la sémantique des actions et les modèles de raisonnement, GUI-Owl prend en charge la prise de décision de bout en bout et peut servir de composant modulaire dans les systèmes multi-agents. (3) Apprentissage par renforcement scalable : nous développons un cadre d'apprentissage par renforcement scalable avec un entraînement entièrement asynchrone pour l'alignement avec le monde réel. Nous introduisons également l'Optimisation de Politique Relative basée sur les Trajectoires (TRPO) pour l'apprentissage par renforcement en ligne, atteignant un score de 34,9 sur OSWorld. GUI-Owl et Mobile-Agent-v3 sont open-source sur https://github.com/X-PLUG/MobileAgent.
English
This paper introduces GUI-Owl, a foundational GUI agent model that achieves
state-of-the-art performance among open-source end-to-end models on ten GUI
benchmarks across desktop and mobile environments, covering grounding, question
answering, planning, decision-making, and procedural knowledge. GUI-Owl-7B
achieves 66.4 on AndroidWorld and 29.4 on OSWorld. Building on this, we propose
Mobile-Agent-v3, a general-purpose GUI agent framework that further improves
performance to 73.3 on AndroidWorld and 37.7 on OSWorld, setting a new
state-of-the-art for open-source GUI agent frameworks. GUI-Owl incorporates
three key innovations: (1) Large-scale Environment Infrastructure: a
cloud-based virtual environment spanning Android, Ubuntu, macOS, and Windows,
enabling our Self-Evolving GUI Trajectory Production framework. This generates
high-quality interaction data via automated query generation and correctness
validation, leveraging GUI-Owl to refine trajectories iteratively, forming a
self-improving loop. It supports diverse data pipelines and reduces manual
annotation. (2) Diverse Foundational Agent Capabilities: by integrating UI
grounding, planning, action semantics, and reasoning patterns, GUI-Owl supports
end-to-end decision-making and can act as a modular component in multi-agent
systems. (3) Scalable Environment RL: we develop a scalable reinforcement
learning framework with fully asynchronous training for real-world alignment.
We also introduce Trajectory-aware Relative Policy Optimization (TRPO) for
online RL, achieving 34.9 on OSWorld. GUI-Owl and Mobile-Agent-v3 are
open-sourced at https://github.com/X-PLUG/MobileAgent.