Mobile-Agent-v3.5: Фундаментальные GUI-агенты для мультиплатформенных сред
Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents
February 15, 2026
Авторы: Haiyang Xu, Xi Zhang, Haowei Liu, Junyang Wang, Zhaozai Zhu, Shengjie Zhou, Xuhao Hu, Feiyu Gao, Junjie Cao, Zihua Wang, Zhiyuan Chen, Jitong Liao, Qi Zheng, Jiahui Zeng, Ze Xu, Shuai Bai, Junyang Lin, Jingren Zhou, Ming Yan
cs.AI
Аннотация
В статье представлена GUI-Owl-1.5 — новейшая нативная модель GUI-агента, которая включает инструктивные/мыслительные варианты в нескольких размерах (2B/4B/8B/32B/235B) и поддерживает ряд платформ (десктопные, мобильные, браузерные и другие) для обеспечения облачно-периферийного взаимодействия и работы в реальном времени. GUI-Owl-1.5 демонстрирует передовые результаты более чем на 20 GUI-бенчмарках среди открытых моделей: (1) в задачах автоматизации GUI она набирает 56.5 на OSWorld, 71.6 на AndroidWorld и 48.4 на WebArena; (2) в задачах граундинга — 80.3 на ScreenSpotPro; (3) в задачах вызова инструментов — 47.6 на OSWorld-MCP и 46.8 на MobileWorld; (4) в задачах памяти и знаний — 75.5 на GUI-Knowledge Bench. Модель включает несколько ключевых инноваций: (1) Гибридный механизм данных: мы создали конвейер данных для понимания пользовательского интерфейса и генерации траекторий на основе комбинации симулированных и облачных песочниц для повышения эффективности и качества сбора данных. (2) Универсальное усиление возможностей агента: мы используем единый конвейер синтеза мышления для улучшения推理-способностей модели, уделяя особое внимание ключевым навыкам, включая использование Tool/MCP, память и адаптацию к мульти-агентным средам. (3) Масштабирование RL в многоплатформенных средах: мы предлагаем новый алгоритм RL для сред (MRPO) для решения проблем конфликтов между платформами и низкой эффективности обучения в длительных задачах. Модели GUI-Owl-1.5 имеют открытый исходный код, а облачная демо-песочница доступна по адресу https://github.com/X-PLUG/MobileAgent.
English
The paper introduces GUI-Owl-1.5, the latest native GUI agent model that features instruct/thinking variants in multiple sizes (2B/4B/8B/32B/235B) and supports a range of platforms (desktop, mobile, browser, and more) to enable cloud-edge collaboration and real-time interaction. GUI-Owl-1.5 achieves state-of-the-art results on more than 20+ GUI benchmarks on open-source models: (1) on GUI automation tasks, it obtains 56.5 on OSWorld, 71.6 on AndroidWorld, and 48.4 on WebArena; (2) on grounding tasks, it obtains 80.3 on ScreenSpotPro; (3) on tool-calling tasks, it obtains 47.6 on OSWorld-MCP, and 46.8 on MobileWorld; (4) on memory and knowledge tasks, it obtains 75.5 on GUI-Knowledge Bench. GUI-Owl-1.5 incorporates several key innovations: (1) Hybird Data Flywheel: we construct the data pipeline for UI understanding and trajectory generation based on a combination of simulated environments and cloud-based sandbox environments, in order to improve the efficiency and quality of data collection. (2) Unified Enhancement of Agent Capabilities: we use a unified thought-synthesis pipeline to enhance the model's reasoning capabilities, while placing particular emphasis on improving key agent abilities, including Tool/MCP use, memory and multi-agent adaptation; (3) Multi-platform Environment RL Scaling: We propose a new environment RL algorithm, MRPO, to address the challenges of multi-platform conflicts and the low training efficiency of long-horizon tasks. The GUI-Owl-1.5 models are open-sourced, and an online cloud-sandbox demo is available at https://github.com/X-PLUG/MobileAgent.