ChatPaper.aiChatPaper

Mobile-Agent-v3: Agentes Fundamentales para la Automatización de Interfaces Gráficas de Usuario

Mobile-Agent-v3: Foundamental Agents for GUI Automation

August 21, 2025
Autores: Jiabo Ye, Xi Zhang, Haiyang Xu, Haowei Liu, Junyang Wang, Zhaoqing Zhu, Ziwei Zheng, Feiyu Gao, Junjie Cao, Zhengxi Lu, Jitong Liao, Qi Zheng, Fei Huang, Jingren Zhou, Ming Yan
cs.AI

Resumen

Este artículo presenta GUI-Owl, un modelo fundamental de agente GUI que alcanza un rendimiento de vanguardia entre los modelos de código abierto de extremo a extremo en diez benchmarks de GUI para entornos de escritorio y móviles, abarcando fundamentación, respuesta a preguntas, planificación, toma de decisiones y conocimiento procedimental. GUI-Owl-7B logra 66.4 en AndroidWorld y 29.4 en OSWorld. Sobre esta base, proponemos Mobile-Agent-v3, un marco de agente GUI de propósito general que mejora aún más el rendimiento a 73.3 en AndroidWorld y 37.7 en OSWorld, estableciendo un nuevo estado del arte para marcos de agentes GUI de código abierto. GUI-Owl incorpora tres innovaciones clave: (1) Infraestructura de Entorno a Gran Escala: un entorno virtual basado en la nube que abarca Android, Ubuntu, macOS y Windows, permitiendo nuestro marco de Producción de Trayectorias GUI de Auto-Evolución. Este genera datos de interacción de alta calidad mediante la generación automática de consultas y validación de corrección, aprovechando GUI-Owl para refinar trayectorias de manera iterativa, formando un ciclo de auto-mejora. Soporta diversas canalizaciones de datos y reduce la anotación manual. (2) Capacidades Fundamentales Diversas del Agente: al integrar fundamentación de UI, planificación, semántica de acciones y patrones de razonamiento, GUI-Owl soporta la toma de decisiones de extremo a extremo y puede actuar como un componente modular en sistemas multi-agente. (3) RL de Entorno Escalable: desarrollamos un marco de aprendizaje por refuerzo escalable con entrenamiento completamente asíncrono para alineación con el mundo real. También introducimos Optimización de Política Relativa Consciente de Trayectorias (TRPO) para RL en línea, alcanzando 34.9 en OSWorld. GUI-Owl y Mobile-Agent-v3 están disponibles en código abierto en https://github.com/X-PLUG/MobileAgent.
English
This paper introduces GUI-Owl, a foundational GUI agent model that achieves state-of-the-art performance among open-source end-to-end models on ten GUI benchmarks across desktop and mobile environments, covering grounding, question answering, planning, decision-making, and procedural knowledge. GUI-Owl-7B achieves 66.4 on AndroidWorld and 29.4 on OSWorld. Building on this, we propose Mobile-Agent-v3, a general-purpose GUI agent framework that further improves performance to 73.3 on AndroidWorld and 37.7 on OSWorld, setting a new state-of-the-art for open-source GUI agent frameworks. GUI-Owl incorporates three key innovations: (1) Large-scale Environment Infrastructure: a cloud-based virtual environment spanning Android, Ubuntu, macOS, and Windows, enabling our Self-Evolving GUI Trajectory Production framework. This generates high-quality interaction data via automated query generation and correctness validation, leveraging GUI-Owl to refine trajectories iteratively, forming a self-improving loop. It supports diverse data pipelines and reduces manual annotation. (2) Diverse Foundational Agent Capabilities: by integrating UI grounding, planning, action semantics, and reasoning patterns, GUI-Owl supports end-to-end decision-making and can act as a modular component in multi-agent systems. (3) Scalable Environment RL: we develop a scalable reinforcement learning framework with fully asynchronous training for real-world alignment. We also introduce Trajectory-aware Relative Policy Optimization (TRPO) for online RL, achieving 34.9 on OSWorld. GUI-Owl and Mobile-Agent-v3 are open-sourced at https://github.com/X-PLUG/MobileAgent.
PDF473August 22, 2025