Mobile-Agent-v3: Agentes Fundamentales para la Automatización de Interfaces Gráficas de Usuario
Mobile-Agent-v3: Foundamental Agents for GUI Automation
August 21, 2025
Autores: Jiabo Ye, Xi Zhang, Haiyang Xu, Haowei Liu, Junyang Wang, Zhaoqing Zhu, Ziwei Zheng, Feiyu Gao, Junjie Cao, Zhengxi Lu, Jitong Liao, Qi Zheng, Fei Huang, Jingren Zhou, Ming Yan
cs.AI
Resumen
Este artículo presenta GUI-Owl, un modelo fundamental de agente GUI que alcanza un rendimiento de vanguardia entre los modelos de código abierto de extremo a extremo en diez benchmarks de GUI para entornos de escritorio y móviles, abarcando fundamentación, respuesta a preguntas, planificación, toma de decisiones y conocimiento procedimental. GUI-Owl-7B logra 66.4 en AndroidWorld y 29.4 en OSWorld. Sobre esta base, proponemos Mobile-Agent-v3, un marco de agente GUI de propósito general que mejora aún más el rendimiento a 73.3 en AndroidWorld y 37.7 en OSWorld, estableciendo un nuevo estado del arte para marcos de agentes GUI de código abierto. GUI-Owl incorpora tres innovaciones clave: (1) Infraestructura de Entorno a Gran Escala: un entorno virtual basado en la nube que abarca Android, Ubuntu, macOS y Windows, permitiendo nuestro marco de Producción de Trayectorias GUI de Auto-Evolución. Este genera datos de interacción de alta calidad mediante la generación automática de consultas y validación de corrección, aprovechando GUI-Owl para refinar trayectorias de manera iterativa, formando un ciclo de auto-mejora. Soporta diversas canalizaciones de datos y reduce la anotación manual. (2) Capacidades Fundamentales Diversas del Agente: al integrar fundamentación de UI, planificación, semántica de acciones y patrones de razonamiento, GUI-Owl soporta la toma de decisiones de extremo a extremo y puede actuar como un componente modular en sistemas multi-agente. (3) RL de Entorno Escalable: desarrollamos un marco de aprendizaje por refuerzo escalable con entrenamiento completamente asíncrono para alineación con el mundo real. También introducimos Optimización de Política Relativa Consciente de Trayectorias (TRPO) para RL en línea, alcanzando 34.9 en OSWorld. GUI-Owl y Mobile-Agent-v3 están disponibles en código abierto en https://github.com/X-PLUG/MobileAgent.
English
This paper introduces GUI-Owl, a foundational GUI agent model that achieves
state-of-the-art performance among open-source end-to-end models on ten GUI
benchmarks across desktop and mobile environments, covering grounding, question
answering, planning, decision-making, and procedural knowledge. GUI-Owl-7B
achieves 66.4 on AndroidWorld and 29.4 on OSWorld. Building on this, we propose
Mobile-Agent-v3, a general-purpose GUI agent framework that further improves
performance to 73.3 on AndroidWorld and 37.7 on OSWorld, setting a new
state-of-the-art for open-source GUI agent frameworks. GUI-Owl incorporates
three key innovations: (1) Large-scale Environment Infrastructure: a
cloud-based virtual environment spanning Android, Ubuntu, macOS, and Windows,
enabling our Self-Evolving GUI Trajectory Production framework. This generates
high-quality interaction data via automated query generation and correctness
validation, leveraging GUI-Owl to refine trajectories iteratively, forming a
self-improving loop. It supports diverse data pipelines and reduces manual
annotation. (2) Diverse Foundational Agent Capabilities: by integrating UI
grounding, planning, action semantics, and reasoning patterns, GUI-Owl supports
end-to-end decision-making and can act as a modular component in multi-agent
systems. (3) Scalable Environment RL: we develop a scalable reinforcement
learning framework with fully asynchronous training for real-world alignment.
We also introduce Trajectory-aware Relative Policy Optimization (TRPO) for
online RL, achieving 34.9 on OSWorld. GUI-Owl and Mobile-Agent-v3 are
open-sourced at https://github.com/X-PLUG/MobileAgent.