Mobile-Agent-v3.5: Agentes Fundamentais de Interface Gráfica Multiplataforma

Resumo

O artigo apresenta o GUI-Owl-1.5, o mais recente modelo de agente de interface gráfica nativo, que apresenta variantes de instrução/raciocínio em múltiplos tamanhos (2B/4B/8B/32B/235B) e suporta uma variedade de plataformas (desktop, móvel, navegador e outras) para permitir colaboração cloud-edge e interação em tempo real. O GUI-Owl-1.5 alcança resultados de última geração em mais de 20 benchmarks de GUI em modelos de código aberto: (1) em tarefas de automação de GUI, obtém 56,5 no OSWorld, 71,6 no AndroidWorld e 48,4 no WebArena; (2) em tarefas de *grounding*, obtém 80,3 no ScreenSpotPro; (3) em tarefas de chamada de ferramentas, obtém 47,6 no OSWorld-MCP e 46,8 no MobileWorld; (4) em tarefas de memória e conhecimento, obtém 75,5 no GUI-Knowledge Bench. O GUI-Owl-1.5 incorpora várias inovações-chave: (1) *Flywheel* de Dados Híbrido: construímos o pipeline de dados para compreensão de IU e geração de trajetórias com base numa combinação de ambientes simulados e ambientes de *sandbox* baseados na nuvem, de modo a melhorar a eficiência e a qualidade da recolha de dados. (2) Aprimoramento Unificado das Capacidades do Agente: usamos um pipeline unificado de síntese de pensamento para melhorar as capacidades de raciocínio do modelo, colocando particular ênfase na melhoria das capacidades-chave do agente, incluindo o uso de Ferramentas/MCP, memória e adaptação multiagente; (3) Escalonamento de RL em Ambiente Multiplataforma: Propomos um novo algoritmo de RL de ambiente, o MRPO, para enfrentar os desafios dos conflitos multiplataforma e da baixa eficiência de treino em tarefas de longo horizonte. Os modelos GUI-Owl-1.5 são de código aberto, e uma demonstração online de *sandbox* na nuvem está disponível em https://github.com/X-PLUG/MobileAgent.

English

The paper introduces GUI-Owl-1.5, the latest native GUI agent model that features instruct/thinking variants in multiple sizes (2B/4B/8B/32B/235B) and supports a range of platforms (desktop, mobile, browser, and more) to enable cloud-edge collaboration and real-time interaction. GUI-Owl-1.5 achieves state-of-the-art results on more than 20+ GUI benchmarks on open-source models: (1) on GUI automation tasks, it obtains 56.5 on OSWorld, 71.6 on AndroidWorld, and 48.4 on WebArena; (2) on grounding tasks, it obtains 80.3 on ScreenSpotPro; (3) on tool-calling tasks, it obtains 47.6 on OSWorld-MCP, and 46.8 on MobileWorld; (4) on memory and knowledge tasks, it obtains 75.5 on GUI-Knowledge Bench. GUI-Owl-1.5 incorporates several key innovations: (1) Hybird Data Flywheel: we construct the data pipeline for UI understanding and trajectory generation based on a combination of simulated environments and cloud-based sandbox environments, in order to improve the efficiency and quality of data collection. (2) Unified Enhancement of Agent Capabilities: we use a unified thought-synthesis pipeline to enhance the model's reasoning capabilities, while placing particular emphasis on improving key agent abilities, including Tool/MCP use, memory and multi-agent adaptation; (3) Multi-platform Environment RL Scaling: We propose a new environment RL algorithm, MRPO, to address the challenges of multi-platform conflicts and the low training efficiency of long-horizon tasks. The GUI-Owl-1.5 models are open-sourced, and an online cloud-sandbox demo is available at https://github.com/X-PLUG/MobileAgent.