Mobile-Agent-v3.5: Agentes Fundamentales de Interfaz Gráfica Multiplataforma
Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents
February 15, 2026
Autores: Haiyang Xu, Xi Zhang, Haowei Liu, Junyang Wang, Zhaozai Zhu, Shengjie Zhou, Xuhao Hu, Feiyu Gao, Junjie Cao, Zihua Wang, Zhiyuan Chen, Jitong Liao, Qi Zheng, Jiahui Zeng, Ze Xu, Shuai Bai, Junyang Lin, Jingren Zhou, Ming Yan
cs.AI
Resumen
El artículo presenta GUI-Owl-1.5, el último modelo de agente nativo para interfaces gráficas de usuario (GUI) que incluye variantes de instrucción/razonamiento en múltiples tamaños (2B/4B/8B/32B/235B) y admite una variedad de plataformas (escritorio, móvil, navegador y más) para permitir la colaboración cloud-edge y la interacción en tiempo real. GUI-Owl-1.5 logra resultados de vanguardia en más de 20 benchmarks de GUI en modelos de código abierto: (1) en tareas de automatización de GUI, obtiene 56.5 en OSWorld, 71.6 en AndroidWorld y 48.4 en WebArena; (2) en tareas de grounding, obtiene 80.3 en ScreenSpotPro; (3) en tareas de llamada a herramientas, obtiene 47.6 en OSWorld-MCP y 46.8 en MobileWorld; (4) en tareas de memoria y conocimiento, obtiene 75.5 en GUI-Knowledge Bench. GUI-Owl-1.5 incorpora varias innovaciones clave: (1) Rueda de datos híbrida: construimos la canalización de datos para la comprensión de IU y la generación de trayectorias basada en una combinación de entornos simulados y entornos sandbox basados en la nube, para mejorar la eficiencia y calidad de la recolección de datos. (2) Mejora unificada de capacidades del agente: utilizamos una canalización unificada de síntesis de pensamiento para mejorar las capacidades de razonamiento del modelo, mientras hacemos especial hincapié en mejorar habilidades clave del agente, incluyendo el uso de herramientas/MCP, la memoria y la adaptación multiagente; (3) Escalado RL en entornos multiplataforma: Proponemos un nuevo algoritmo RL de entorno, MRPO, para abordar los desafíos de los conflictos multiplataforma y la baja eficiencia de entrenamiento en tareas de horizonte largo. Los modelos GUI-Owl-1.5 son de código abierto, y hay una demostración online de sandbox en la nube disponible en https://github.com/X-PLUG/MobileAgent.
English
The paper introduces GUI-Owl-1.5, the latest native GUI agent model that features instruct/thinking variants in multiple sizes (2B/4B/8B/32B/235B) and supports a range of platforms (desktop, mobile, browser, and more) to enable cloud-edge collaboration and real-time interaction. GUI-Owl-1.5 achieves state-of-the-art results on more than 20+ GUI benchmarks on open-source models: (1) on GUI automation tasks, it obtains 56.5 on OSWorld, 71.6 on AndroidWorld, and 48.4 on WebArena; (2) on grounding tasks, it obtains 80.3 on ScreenSpotPro; (3) on tool-calling tasks, it obtains 47.6 on OSWorld-MCP, and 46.8 on MobileWorld; (4) on memory and knowledge tasks, it obtains 75.5 on GUI-Knowledge Bench. GUI-Owl-1.5 incorporates several key innovations: (1) Hybird Data Flywheel: we construct the data pipeline for UI understanding and trajectory generation based on a combination of simulated environments and cloud-based sandbox environments, in order to improve the efficiency and quality of data collection. (2) Unified Enhancement of Agent Capabilities: we use a unified thought-synthesis pipeline to enhance the model's reasoning capabilities, while placing particular emphasis on improving key agent abilities, including Tool/MCP use, memory and multi-agent adaptation; (3) Multi-platform Environment RL Scaling: We propose a new environment RL algorithm, MRPO, to address the challenges of multi-platform conflicts and the low training efficiency of long-horizon tasks. The GUI-Owl-1.5 models are open-sourced, and an online cloud-sandbox demo is available at https://github.com/X-PLUG/MobileAgent.