Mobile-Agent-v3.5: Fundamentele GUI-agents voor meerdere platformen
Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents
February 15, 2026
Auteurs: Haiyang Xu, Xi Zhang, Haowei Liu, Junyang Wang, Zhaozai Zhu, Shengjie Zhou, Xuhao Hu, Feiyu Gao, Junjie Cao, Zihua Wang, Zhiyuan Chen, Jitong Liao, Qi Zheng, Jiahui Zeng, Ze Xu, Shuai Bai, Junyang Lin, Jingren Zhou, Ming Yan
cs.AI
Samenvatting
Het artikel introduceert GUI-Owl-1.5, het nieuwste native GUI-agentmodel dat instructie/denk-varianten biedt in meerdere groottes (2B/4B/8B/32B/235B) en een reeks platforms ondersteunt (desktop, mobiel, browser en meer) om cloud-edge samenwerking en real-time interactie mogelijk te maken. GUI-Owl-1.5 behaalt state-of-the-art resultaten op meer dan 20 GUI-benchmarks voor open-source modellen: (1) voor GUI-automatiseringstaken behaalt het 56,5 op OSWorld, 71,6 op AndroidWorld en 48,4 op WebArena; (2) voor groundingtaken behaalt het 80,3 op ScreenSpotPro; (3) voor tool-aanroepingstaken behaalt het 47,6 op OSWorld-MCP en 46,8 op MobileWorld; (4) voor geheugen- en kennistaken behaalt het 75,5 op GUI-Knowledge Bench. GUI-Owl-1.5 bevat verschillende belangrijke innovaties: (1) Hybride Data Flywheel: we bouwen de datapijplijn voor UI-begrip en trajectgeneratie op basis van een combinatie van gesimuleerde omgevingen en cloudgebaseerde sandbox-omgevingen om de efficiëntie en kwaliteit van gegevensverzameling te verbeteren. (2) Uniforme Verbetering van Agentcapaciteiten: we gebruiken een uniforme thought-synthesis pijplijn om de redeneercapaciteiten van het model te versterken, met bijzondere aandacht voor het verbeteren van cruciale agentvaardigheden, waaronder Tool/MCP-gebruik, geheugen en multi-agent aanpassing; (3) Multi-platform Omgeving RL Scaling: We introduceren een nieuwe omgeving RL-algoritme, MRPO, om de uitdagingen van multi-platform conflicten en de lage trainings efficiëntie van long-horizon taken aan te pakken. De GUI-Owl-1.5-modellen zijn open source, en een online cloud-sandbox demo is beschikbaar op https://github.com/X-PLUG/MobileAgent.
English
The paper introduces GUI-Owl-1.5, the latest native GUI agent model that features instruct/thinking variants in multiple sizes (2B/4B/8B/32B/235B) and supports a range of platforms (desktop, mobile, browser, and more) to enable cloud-edge collaboration and real-time interaction. GUI-Owl-1.5 achieves state-of-the-art results on more than 20+ GUI benchmarks on open-source models: (1) on GUI automation tasks, it obtains 56.5 on OSWorld, 71.6 on AndroidWorld, and 48.4 on WebArena; (2) on grounding tasks, it obtains 80.3 on ScreenSpotPro; (3) on tool-calling tasks, it obtains 47.6 on OSWorld-MCP, and 46.8 on MobileWorld; (4) on memory and knowledge tasks, it obtains 75.5 on GUI-Knowledge Bench. GUI-Owl-1.5 incorporates several key innovations: (1) Hybird Data Flywheel: we construct the data pipeline for UI understanding and trajectory generation based on a combination of simulated environments and cloud-based sandbox environments, in order to improve the efficiency and quality of data collection. (2) Unified Enhancement of Agent Capabilities: we use a unified thought-synthesis pipeline to enhance the model's reasoning capabilities, while placing particular emphasis on improving key agent abilities, including Tool/MCP use, memory and multi-agent adaptation; (3) Multi-platform Environment RL Scaling: We propose a new environment RL algorithm, MRPO, to address the challenges of multi-platform conflicts and the low training efficiency of long-horizon tasks. The GUI-Owl-1.5 models are open-sourced, and an online cloud-sandbox demo is available at https://github.com/X-PLUG/MobileAgent.