Mobile-Agent-v3.5 : Agents fondamentaux d'interface graphique multiplateformes
Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents
February 15, 2026
papers.authors: Haiyang Xu, Xi Zhang, Haowei Liu, Junyang Wang, Zhaozai Zhu, Shengjie Zhou, Xuhao Hu, Feiyu Gao, Junjie Cao, Zihua Wang, Zhiyuan Chen, Jitong Liao, Qi Zheng, Jiahui Zeng, Ze Xu, Shuai Bai, Junyang Lin, Jingren Zhou, Ming Yan
cs.AI
papers.abstract
Le document présente GUI-Owl-1.5, le dernier modèle d'agent d'interface graphique natif proposant des variantes instruction/réflexion dans plusieurs tailles (2B/4B/8B/32B/235B) et prenant en charge une gamme de plateformes (bureau, mobile, navigateur et autres) pour permettre une collaboration cloud-edge et une interaction en temps réel. GUI-Owl-1.5 obtient des résultats state-of-the-art sur plus de 20 benchmarks d'interface graphique parmi les modèles open source : (1) sur les tâches d'automatisation d'interface, il atteint 56,5 sur OSWorld, 71,6 sur AndroidWorld et 48,4 sur WebArena ; (2) sur les tâches de grounding, il obtient 80,3 sur ScreenSpotPro ; (3) sur les tâches d'appel d'outils, il atteint 47,6 sur OSWorld-MCP et 46,8 sur MobileWorld ; (4) sur les tâches de mémoire et de connaissances, il obtient 75,5 sur GUI-Knowledge Bench. GUI-Owl-1.5 intègre plusieurs innovations clés : (1) Roue des données hybride : nous construisons le pipeline de données pour la compréhension d'interface et la génération de trajectoires en combinant environnements simulés et sandbox cloud, afin d'améliorer l'efficacité et la qualité de la collecte de données. (2) Amélioration unifiée des capacités de l'agent : nous utilisons un pipeline unifié de synthèse de la pensée pour renforcer les capacités de raisonnement du modèle, tout en mettant l'accent sur l'amélioration des compétences clés de l'agent, incluant l'utilisation d'outils/MCP, la mémoire et l'adaptation multi-agents. (3) Mise à l'échelle par RL multi-plateformes : Nous proposons un nouvel algorithme de RL environnemental, MRPO, pour relever les défis des conflits multi-plateformes et de la faible efficacité d'entraînement des tâches à long horizon. Les modèles GUI-Owl-1.5 sont open source, et une démonstration en ligne de sandbox cloud est disponible à l'adresse https://github.com/X-PLUG/MobileAgent.
English
The paper introduces GUI-Owl-1.5, the latest native GUI agent model that features instruct/thinking variants in multiple sizes (2B/4B/8B/32B/235B) and supports a range of platforms (desktop, mobile, browser, and more) to enable cloud-edge collaboration and real-time interaction. GUI-Owl-1.5 achieves state-of-the-art results on more than 20+ GUI benchmarks on open-source models: (1) on GUI automation tasks, it obtains 56.5 on OSWorld, 71.6 on AndroidWorld, and 48.4 on WebArena; (2) on grounding tasks, it obtains 80.3 on ScreenSpotPro; (3) on tool-calling tasks, it obtains 47.6 on OSWorld-MCP, and 46.8 on MobileWorld; (4) on memory and knowledge tasks, it obtains 75.5 on GUI-Knowledge Bench. GUI-Owl-1.5 incorporates several key innovations: (1) Hybird Data Flywheel: we construct the data pipeline for UI understanding and trajectory generation based on a combination of simulated environments and cloud-based sandbox environments, in order to improve the efficiency and quality of data collection. (2) Unified Enhancement of Agent Capabilities: we use a unified thought-synthesis pipeline to enhance the model's reasoning capabilities, while placing particular emphasis on improving key agent abilities, including Tool/MCP use, memory and multi-agent adaptation; (3) Multi-platform Environment RL Scaling: We propose a new environment RL algorithm, MRPO, to address the challenges of multi-platform conflicts and the low training efficiency of long-horizon tasks. The GUI-Owl-1.5 models are open-sourced, and an online cloud-sandbox demo is available at https://github.com/X-PLUG/MobileAgent.