Mobile-Agent-v3.5:多平台基础图形用户界面智能体
Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents
February 15, 2026
Autori: Haiyang Xu, Xi Zhang, Haowei Liu, Junyang Wang, Zhaozai Zhu, Shengjie Zhou, Xuhao Hu, Feiyu Gao, Junjie Cao, Zihua Wang, Zhiyuan Chen, Jitong Liao, Qi Zheng, Jiahui Zeng, Ze Xu, Shuai Bai, Junyang Lin, Jingren Zhou, Ming Yan
cs.AI
Abstract
Il documento presenta GUI-Owl-1.5, il più recente modello di agente GUI nativo che include varianti instruct/thinking in diverse dimensioni (2B/4B/8B/32B/235B) e supporta una gamma di piattaforme (desktop, mobile, browser e altre) per abilitare la collaborazione cloud-edge e l'interazione in tempo reale. GUI-Owl-1.5 raggiunge risultati all'avanguardia su oltre 20 benchmark GUI su modelli open-source: (1) nelle attività di automazione GUI, ottiene 56,5 su OSWorld, 71,6 su AndroidWorld e 48,4 su WebArena; (2) nelle attività di grounding, ottiene 80,3 su ScreenSpotPro; (3) nelle attività di tool-calling, ottiene 47,6 su OSWorld-MCP e 46,8 su MobileWorld; (4) nelle attività di memoria e conoscenza, ottiene 75,5 su GUI-Knowledge Bench. GUI-Owl-1.5 incorpora diverse innovazioni chiave: (1) Hybird Data Flywheel: abbiamo costruito la pipeline di dati per la comprensione dell'interfaccia utente e la generazione di traiettorie basata su una combinazione di ambienti simulati e ambienti sandbox basati su cloud, per migliorare l'efficienza e la qualità della raccolta dati. (2) Potenziamento Unificato delle Capacità dell'Agente: utilizziamo una pipeline unificata di sintesi del pensiero per potenziare le capacità di ragionamento del modello, ponendo particolare enfasi sul miglioramento delle capacità chiave dell'agente, inclusi l'uso di Tool/MCP, la memoria e l'adattamento multi-agente; (3) Scalabilità RL in Ambienti Multi-piattaforma: Proponiamo un nuovo algoritmo RL per ambienti, MRPO, per affrontare le sfide dei conflitti multi-piattaforma e della bassa efficienza di addestramento dei task a lungo orizzonte. I modelli GUI-Owl-1.5 sono open-source, ed una demo online cloud-sandbox è disponibile all'indirizzo https://github.com/X-PLUG/MobileAgent.
English
The paper introduces GUI-Owl-1.5, the latest native GUI agent model that features instruct/thinking variants in multiple sizes (2B/4B/8B/32B/235B) and supports a range of platforms (desktop, mobile, browser, and more) to enable cloud-edge collaboration and real-time interaction. GUI-Owl-1.5 achieves state-of-the-art results on more than 20+ GUI benchmarks on open-source models: (1) on GUI automation tasks, it obtains 56.5 on OSWorld, 71.6 on AndroidWorld, and 48.4 on WebArena; (2) on grounding tasks, it obtains 80.3 on ScreenSpotPro; (3) on tool-calling tasks, it obtains 47.6 on OSWorld-MCP, and 46.8 on MobileWorld; (4) on memory and knowledge tasks, it obtains 75.5 on GUI-Knowledge Bench. GUI-Owl-1.5 incorporates several key innovations: (1) Hybird Data Flywheel: we construct the data pipeline for UI understanding and trajectory generation based on a combination of simulated environments and cloud-based sandbox environments, in order to improve the efficiency and quality of data collection. (2) Unified Enhancement of Agent Capabilities: we use a unified thought-synthesis pipeline to enhance the model's reasoning capabilities, while placing particular emphasis on improving key agent abilities, including Tool/MCP use, memory and multi-agent adaptation; (3) Multi-platform Environment RL Scaling: We propose a new environment RL algorithm, MRPO, to address the challenges of multi-platform conflicts and the low training efficiency of long-horizon tasks. The GUI-Owl-1.5 models are open-sourced, and an online cloud-sandbox demo is available at https://github.com/X-PLUG/MobileAgent.