Mobile-Agent-v3.5: Agentes Fundamentais de Interface Gráfica Multiplataforma
Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents
February 15, 2026
Autores: Haiyang Xu, Xi Zhang, Haowei Liu, Junyang Wang, Zhaozai Zhu, Shengjie Zhou, Xuhao Hu, Feiyu Gao, Junjie Cao, Zihua Wang, Zhiyuan Chen, Jitong Liao, Qi Zheng, Jiahui Zeng, Ze Xu, Shuai Bai, Junyang Lin, Jingren Zhou, Ming Yan
cs.AI
Resumo
O artigo apresenta o GUI-Owl-1.5, o mais recente modelo de agente de interface gráfica nativo, que apresenta variantes de instrução/raciocínio em múltiplos tamanhos (2B/4B/8B/32B/235B) e suporta uma variedade de plataformas (desktop, móvel, navegador e outras) para permitir colaboração cloud-edge e interação em tempo real. O GUI-Owl-1.5 alcança resultados de última geração em mais de 20 benchmarks de GUI em modelos de código aberto: (1) em tarefas de automação de GUI, obtém 56,5 no OSWorld, 71,6 no AndroidWorld e 48,4 no WebArena; (2) em tarefas de *grounding*, obtém 80,3 no ScreenSpotPro; (3) em tarefas de chamada de ferramentas, obtém 47,6 no OSWorld-MCP e 46,8 no MobileWorld; (4) em tarefas de memória e conhecimento, obtém 75,5 no GUI-Knowledge Bench. O GUI-Owl-1.5 incorpora várias inovações-chave: (1) *Flywheel* de Dados Híbrido: construímos o pipeline de dados para compreensão de IU e geração de trajetórias com base numa combinação de ambientes simulados e ambientes de *sandbox* baseados na nuvem, de modo a melhorar a eficiência e a qualidade da recolha de dados. (2) Aprimoramento Unificado das Capacidades do Agente: usamos um pipeline unificado de síntese de pensamento para melhorar as capacidades de raciocínio do modelo, colocando particular ênfase na melhoria das capacidades-chave do agente, incluindo o uso de Ferramentas/MCP, memória e adaptação multiagente; (3) Escalonamento de RL em Ambiente Multiplataforma: Propomos um novo algoritmo de RL de ambiente, o MRPO, para enfrentar os desafios dos conflitos multiplataforma e da baixa eficiência de treino em tarefas de longo horizonte. Os modelos GUI-Owl-1.5 são de código aberto, e uma demonstração online de *sandbox* na nuvem está disponível em https://github.com/X-PLUG/MobileAgent.
English
The paper introduces GUI-Owl-1.5, the latest native GUI agent model that features instruct/thinking variants in multiple sizes (2B/4B/8B/32B/235B) and supports a range of platforms (desktop, mobile, browser, and more) to enable cloud-edge collaboration and real-time interaction. GUI-Owl-1.5 achieves state-of-the-art results on more than 20+ GUI benchmarks on open-source models: (1) on GUI automation tasks, it obtains 56.5 on OSWorld, 71.6 on AndroidWorld, and 48.4 on WebArena; (2) on grounding tasks, it obtains 80.3 on ScreenSpotPro; (3) on tool-calling tasks, it obtains 47.6 on OSWorld-MCP, and 46.8 on MobileWorld; (4) on memory and knowledge tasks, it obtains 75.5 on GUI-Knowledge Bench. GUI-Owl-1.5 incorporates several key innovations: (1) Hybird Data Flywheel: we construct the data pipeline for UI understanding and trajectory generation based on a combination of simulated environments and cloud-based sandbox environments, in order to improve the efficiency and quality of data collection. (2) Unified Enhancement of Agent Capabilities: we use a unified thought-synthesis pipeline to enhance the model's reasoning capabilities, while placing particular emphasis on improving key agent abilities, including Tool/MCP use, memory and multi-agent adaptation; (3) Multi-platform Environment RL Scaling: We propose a new environment RL algorithm, MRPO, to address the challenges of multi-platform conflicts and the low training efficiency of long-horizon tasks. The GUI-Owl-1.5 models are open-sourced, and an online cloud-sandbox demo is available at https://github.com/X-PLUG/MobileAgent.