Mobile-Agent-v3: Agenti Fondamentali per l'Automazione delle Interfacce Grafiche
Mobile-Agent-v3: Foundamental Agents for GUI Automation
August 21, 2025
Autori: Jiabo Ye, Xi Zhang, Haiyang Xu, Haowei Liu, Junyang Wang, Zhaoqing Zhu, Ziwei Zheng, Feiyu Gao, Junjie Cao, Zhengxi Lu, Jitong Liao, Qi Zheng, Fei Huang, Jingren Zhou, Ming Yan
cs.AI
Abstract
Questo articolo introduce GUI-Owl, un modello di agente GUI fondamentale che raggiunge prestazioni all'avanguardia tra i modelli end-to-end open-source su dieci benchmark GUI, coprendo ambienti desktop e mobili, inclusi grounding, risposta a domande, pianificazione, decision-making e conoscenza procedurale. GUI-Owl-7B ottiene 66.4 su AndroidWorld e 29.4 su OSWorld. Basandoci su questo, proponiamo Mobile-Agent-v3, un framework di agente GUI generico che migliora ulteriormente le prestazioni a 73.3 su AndroidWorld e 37.7 su OSWorld, stabilendo un nuovo stato dell'arte per i framework di agenti GUI open-source. GUI-Owl incorpora tre innovazioni chiave: (1) Infrastruttura di Ambiente su Larga Scala: un ambiente virtuale basato su cloud che copre Android, Ubuntu, macOS e Windows, abilitando il nostro framework di Produzione di Traiettorie GUI Auto-Evolvente. Questo genera dati di interazione di alta qualità tramite generazione automatica di query e validazione della correttezza, sfruttando GUI-Owl per affinare iterativamente le traiettorie, formando un ciclo di auto-miglioramento. Supporta pipeline di dati diversificate e riduce l'annotazione manuale. (2) Capacità Fondamentali Diversificate dell'Agente: integrando grounding dell'interfaccia utente, pianificazione, semantica delle azioni e modelli di ragionamento, GUI-Owl supporta il decision-making end-to-end e può fungere da componente modulare in sistemi multi-agente. (3) RL Scalabile nell'Ambiente: sviluppiamo un framework di reinforcement learning scalabile con addestramento completamente asincrono per l'allineamento al mondo reale. Introduciamo anche l'ottimizzazione relativa della politica basata sulla traiettoria (TRPO) per il RL online, raggiungendo 34.9 su OSWorld. GUI-Owl e Mobile-Agent-v3 sono open-source su https://github.com/X-PLUG/MobileAgent.
English
This paper introduces GUI-Owl, a foundational GUI agent model that achieves
state-of-the-art performance among open-source end-to-end models on ten GUI
benchmarks across desktop and mobile environments, covering grounding, question
answering, planning, decision-making, and procedural knowledge. GUI-Owl-7B
achieves 66.4 on AndroidWorld and 29.4 on OSWorld. Building on this, we propose
Mobile-Agent-v3, a general-purpose GUI agent framework that further improves
performance to 73.3 on AndroidWorld and 37.7 on OSWorld, setting a new
state-of-the-art for open-source GUI agent frameworks. GUI-Owl incorporates
three key innovations: (1) Large-scale Environment Infrastructure: a
cloud-based virtual environment spanning Android, Ubuntu, macOS, and Windows,
enabling our Self-Evolving GUI Trajectory Production framework. This generates
high-quality interaction data via automated query generation and correctness
validation, leveraging GUI-Owl to refine trajectories iteratively, forming a
self-improving loop. It supports diverse data pipelines and reduces manual
annotation. (2) Diverse Foundational Agent Capabilities: by integrating UI
grounding, planning, action semantics, and reasoning patterns, GUI-Owl supports
end-to-end decision-making and can act as a modular component in multi-agent
systems. (3) Scalable Environment RL: we develop a scalable reinforcement
learning framework with fully asynchronous training for real-world alignment.
We also introduce Trajectory-aware Relative Policy Optimization (TRPO) for
online RL, achieving 34.9 on OSWorld. GUI-Owl and Mobile-Agent-v3 are
open-sourced at https://github.com/X-PLUG/MobileAgent.