ChatPaper.aiChatPaper

Mobile-Agent-v3.5:マルチプラットフォーム基盤GUIエージェント

Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents

February 15, 2026
著者: Haiyang Xu, Xi Zhang, Haowei Liu, Junyang Wang, Zhaozai Zhu, Shengjie Zhou, Xuhao Hu, Feiyu Gao, Junjie Cao, Zihua Wang, Zhiyuan Chen, Jitong Liao, Qi Zheng, Jiahui Zeng, Ze Xu, Shuai Bai, Junyang Lin, Jingren Zhou, Ming Yan
cs.AI

要旨

本論文では、最新のネイティブGUIエージェントモデルであるGUI-Owl-1.5を紹介する。本モデルは命令実行/思考推論のバリエーションを複数のサイズ(2B/4B/8B/32B/235B)で提供し、デスクトップ・モバイル・ブラウザ等多様なプラットフォームをサポートすることで、クラウドエッジ連携とリアルタイムインタラクションを実現する。GUI-Owl-1.5はオープンソースモデルにおいて20以上のGUIベンチマークで最先端の結果を達成:(1)GUI自動化タスクではOSWorldで56.5、AndroidWorldで71.6、WebArenaで48.4を獲得(2)グラウンディングタスクではScreenSpotProで80.3を獲得(3)ツール呼び出しタスクではOSWorld-MCPで47.6、MobileWorldで46.8を獲得(4)記憶・知識タスクではGUI-Knowledge Benchで75.5を獲得した。GUI-Owl-1.5の主な技術革新は以下の三点:(1)ハイブリッドデータフライホイール:シミュレーション環境とクラウドサンドボックス環境を組み合わせたUI理解と軌道生成のデータパイプラインを構築し、データ収集の効率と品質を向上(2)エージェント能力の統合的強化:統一された思考統合パイプラインによる推論能力の強化に加え、ツール/MCP利用・記憶機能・マルチエージェント適応といった核心能力を重点的に改善(3)マルチプラットフォーム環境RLスケーリング:マルチプラットフォーム間の競合と長期タスクの訓練効率低下という課題に対処する新環境RLアルゴリズムMRPOを提案。GUI-Owl-1.5モデルはオープンソース化され、オンラインクラウドサンドボックスデモがhttps://github.com/X-PLUG/MobileAgent で公開されている。
English
The paper introduces GUI-Owl-1.5, the latest native GUI agent model that features instruct/thinking variants in multiple sizes (2B/4B/8B/32B/235B) and supports a range of platforms (desktop, mobile, browser, and more) to enable cloud-edge collaboration and real-time interaction. GUI-Owl-1.5 achieves state-of-the-art results on more than 20+ GUI benchmarks on open-source models: (1) on GUI automation tasks, it obtains 56.5 on OSWorld, 71.6 on AndroidWorld, and 48.4 on WebArena; (2) on grounding tasks, it obtains 80.3 on ScreenSpotPro; (3) on tool-calling tasks, it obtains 47.6 on OSWorld-MCP, and 46.8 on MobileWorld; (4) on memory and knowledge tasks, it obtains 75.5 on GUI-Knowledge Bench. GUI-Owl-1.5 incorporates several key innovations: (1) Hybird Data Flywheel: we construct the data pipeline for UI understanding and trajectory generation based on a combination of simulated environments and cloud-based sandbox environments, in order to improve the efficiency and quality of data collection. (2) Unified Enhancement of Agent Capabilities: we use a unified thought-synthesis pipeline to enhance the model's reasoning capabilities, while placing particular emphasis on improving key agent abilities, including Tool/MCP use, memory and multi-agent adaptation; (3) Multi-platform Environment RL Scaling: We propose a new environment RL algorithm, MRPO, to address the challenges of multi-platform conflicts and the low training efficiency of long-horizon tasks. The GUI-Owl-1.5 models are open-sourced, and an online cloud-sandbox demo is available at https://github.com/X-PLUG/MobileAgent.
PDF192February 21, 2026