Mobile-Agent-v3.5: Grundlegende GUI-Agenten für Multi-Plattform-Systeme
Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents
February 15, 2026
papers.authors: Haiyang Xu, Xi Zhang, Haowei Liu, Junyang Wang, Zhaozai Zhu, Shengjie Zhou, Xuhao Hu, Feiyu Gao, Junjie Cao, Zihua Wang, Zhiyuan Chen, Jitong Liao, Qi Zheng, Jiahui Zeng, Ze Xu, Shuai Bai, Junyang Lin, Jingren Zhou, Ming Yan
cs.AI
papers.abstract
Die Arbeit stellt GUI-Owl-1.5 vor, das neueste native GUI-Agentenmodell, das Instruct/Thinking-Varianten in mehreren Größen (2B/4B/8B/32B/235B) bietet und eine Reihe von Plattformen (Desktop, Mobilgeräte, Browser u.a.) unterstützt, um Cloud-Edge-Kollaboration und Echtzeitinteraktion zu ermöglichen. GUI-Owl-1.5 erzielt state-of-the-art Ergebnisse auf mehr als 20 GUI-Benchmarks für Open-Source-Modelle: (1) bei GUI-Automatisierungsaufgaben erreicht es 56,5 auf OSWorld, 71,6 auf AndroidWorld und 48,4 auf WebArena; (2) bei Grounding-Aufgaben erzielt es 80,3 auf ScreenSpotPro; (3) bei Tool-Calling-Aufgaben erreicht es 47,6 auf OSWorld-MCP und 46,8 auf MobileWorld; (4) bei Gedächtnis- und Wissensaufgaben erzielt es 75,5 auf GUI-Knowledge Bench. GUI-Owl-1.5 integriert mehrere Schlüsselinnovationen: (1) Hybride Data Flywheel: Wir konstruieren die Datenpipeline für UI-Verständnis und Trajektoriengenerierung basierend auf einer Kombination aus simulierten Umgebungen und cloud-basierten Sandbox-Umgebungen, um die Effizienz und Qualität der Datenerfassung zu verbessern. (2) Vereinheitlichte Verbesserung der Agenten-Fähigkeiten: Wir nutzen eine einheitliche Thought-Synthesis-Pipeline zur Steigerung der Reasoning-Fähigkeiten des Modells, mit besonderem Fokus auf Schlüsselkompetenzen wie Tool/MCP-Nutzung, Gedächtnis und Multi-Agenten-Adaption. (3) Multi-Plattform-Umgebungs-RL-Skalierung: Wir schlagen einen neuen Umgebungs-RL-Algorithmus (MRPO) vor, um die Herausforderungen von Multi-Plattform-Konflikten und der geringen Trainingseffizienz langfristiger Aufgaben zu adressieren. Die GUI-Owl-1.5-Modelle sind quelloffen, und eine Online-Cloud-Sandbox-Demo ist unter https://github.com/X-PLUG/MobileAgent verfügbar.
English
The paper introduces GUI-Owl-1.5, the latest native GUI agent model that features instruct/thinking variants in multiple sizes (2B/4B/8B/32B/235B) and supports a range of platforms (desktop, mobile, browser, and more) to enable cloud-edge collaboration and real-time interaction. GUI-Owl-1.5 achieves state-of-the-art results on more than 20+ GUI benchmarks on open-source models: (1) on GUI automation tasks, it obtains 56.5 on OSWorld, 71.6 on AndroidWorld, and 48.4 on WebArena; (2) on grounding tasks, it obtains 80.3 on ScreenSpotPro; (3) on tool-calling tasks, it obtains 47.6 on OSWorld-MCP, and 46.8 on MobileWorld; (4) on memory and knowledge tasks, it obtains 75.5 on GUI-Knowledge Bench. GUI-Owl-1.5 incorporates several key innovations: (1) Hybird Data Flywheel: we construct the data pipeline for UI understanding and trajectory generation based on a combination of simulated environments and cloud-based sandbox environments, in order to improve the efficiency and quality of data collection. (2) Unified Enhancement of Agent Capabilities: we use a unified thought-synthesis pipeline to enhance the model's reasoning capabilities, while placing particular emphasis on improving key agent abilities, including Tool/MCP use, memory and multi-agent adaptation; (3) Multi-platform Environment RL Scaling: We propose a new environment RL algorithm, MRPO, to address the challenges of multi-platform conflicts and the low training efficiency of long-horizon tasks. The GUI-Owl-1.5 models are open-sourced, and an online cloud-sandbox demo is available at https://github.com/X-PLUG/MobileAgent.