Mobile-Agent-v3.5: 다중 플랫폼 기반 GUI 기본 에이전트
Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents
February 15, 2026
저자: Haiyang Xu, Xi Zhang, Haowei Liu, Junyang Wang, Zhaozai Zhu, Shengjie Zhou, Xuhao Hu, Feiyu Gao, Junjie Cao, Zihua Wang, Zhiyuan Chen, Jitong Liao, Qi Zheng, Jiahui Zeng, Ze Xu, Shuai Bai, Junyang Lin, Jingren Zhou, Ming Yan
cs.AI
초록
본 논문은 최신 네이티브 GUI 에이전트 모델인 GUI-Owl-1.5를 소개한다. 해당 모델은 다양한 규모(2B/4B/8B/32B/235B)의 지시/사고(Instruct/Thinking) 변종을 특징으로 하며, 데스크톱, 모바일, 브라우저 등 다양한 플랫폼을 지원하여 클라우드-엣지 협업과 실시간 상호작용을 가능하게 한다. GUI-Owl-1.5는 오픈소스 모델 기준 20개 이상의 GUI 벤치마크에서 최첨단 성능을 달성했다: (1) GUI 자동화 작업에서는 OSWorld에서 56.5, AndroidWorld에서 71.6, WebArena에서 48.4점을 획득했다. (2) 그라운딩 작업에서는 ScreenSpotPro에서 80.3점을 획득했다. (3) 도구 호출 작업에서는 OSWorld-MCP에서 47.6점, MobileWorld에서 46.8점을 획득했다. (4) 메모리 및 지식 작업에서는 GUI-Knowledge Bench에서 75.5점을 획득했다. GUI-Owl-1.5에는 몇 가지 핵심 혁신 기술이 적용되었다: (1) 하이브리드 데이터 플라이휠(Hybrid Data Flywheel): 데이터 수집의 효율성과 질을 향상시키기 위해 시뮬레이션 환경과 클라우드 기반 샌드박스 환경을 결합한 UI 이해 및 트래젝토리 생성 데이터 파이프라인을 구축하였다. (2) 에이전트 능력의 통합 강화: 통합 사고 합성(Unified Thought-Synthesis) 파이프라인을 사용하여 모델의 추론 능력을 향상시키는 동시에, 도구/MCP 사용, 메모리, 다중 에이전트 적응 등 핵심 에이전트 능력 향상에 특히 중점을 두었다. (3) 다중 플랫폼 환경 RL 확장: 다중 플랫폼 간 충돌 및 장기간 작업의 낮은 훈련 효율성 문제를 해결하기 위한 새로운 환경 RL 알고리즘인 MRPO를 제안한다. GUI-Owl-1.5 모델은 오픈소스로 공개되었으며, 온라인 클라우드 샌드박스 데모는 https://github.com/X-PLUG/MobileAgent에서 이용할 수 있다.
English
The paper introduces GUI-Owl-1.5, the latest native GUI agent model that features instruct/thinking variants in multiple sizes (2B/4B/8B/32B/235B) and supports a range of platforms (desktop, mobile, browser, and more) to enable cloud-edge collaboration and real-time interaction. GUI-Owl-1.5 achieves state-of-the-art results on more than 20+ GUI benchmarks on open-source models: (1) on GUI automation tasks, it obtains 56.5 on OSWorld, 71.6 on AndroidWorld, and 48.4 on WebArena; (2) on grounding tasks, it obtains 80.3 on ScreenSpotPro; (3) on tool-calling tasks, it obtains 47.6 on OSWorld-MCP, and 46.8 on MobileWorld; (4) on memory and knowledge tasks, it obtains 75.5 on GUI-Knowledge Bench. GUI-Owl-1.5 incorporates several key innovations: (1) Hybird Data Flywheel: we construct the data pipeline for UI understanding and trajectory generation based on a combination of simulated environments and cloud-based sandbox environments, in order to improve the efficiency and quality of data collection. (2) Unified Enhancement of Agent Capabilities: we use a unified thought-synthesis pipeline to enhance the model's reasoning capabilities, while placing particular emphasis on improving key agent abilities, including Tool/MCP use, memory and multi-agent adaptation; (3) Multi-platform Environment RL Scaling: We propose a new environment RL algorithm, MRPO, to address the challenges of multi-platform conflicts and the low training efficiency of long-horizon tasks. The GUI-Owl-1.5 models are open-sourced, and an online cloud-sandbox demo is available at https://github.com/X-PLUG/MobileAgent.