ChatPaper.aiChatPaper

Mobile-Agent-v3: Agentes Fundamentais para Automação de Interface Gráfica

Mobile-Agent-v3: Foundamental Agents for GUI Automation

August 21, 2025
Autores: Jiabo Ye, Xi Zhang, Haiyang Xu, Haowei Liu, Junyang Wang, Zhaoqing Zhu, Ziwei Zheng, Feiyu Gao, Junjie Cao, Zhengxi Lu, Jitong Liao, Qi Zheng, Fei Huang, Jingren Zhou, Ming Yan
cs.AI

Resumo

Este artigo apresenta o GUI-Owl, um modelo fundamental de agente de interface gráfica que alcança desempenho de ponta entre modelos de código aberto de ponta a ponta em dez benchmarks de GUI em ambientes de desktop e móveis, abrangendo fundamentação, resposta a perguntas, planejamento, tomada de decisão e conhecimento procedural. O GUI-Owl-7B alcança 66,4 no AndroidWorld e 29,4 no OSWorld. Com base nisso, propomos o Mobile-Agent-v3, uma estrutura de agente de GUI de propósito geral que melhora ainda mais o desempenho para 73,3 no AndroidWorld e 37,7 no OSWorld, estabelecendo um novo estado da arte para estruturas de agentes de GUI de código aberto. O GUI-Owl incorpora três inovações principais: (1) Infraestrutura de Ambiente em Grande Escala: um ambiente virtual baseado em nuvem que abrange Android, Ubuntu, macOS e Windows, permitindo nossa estrutura de Produção de Trajetória de GUI Auto-Evolutiva. Isso gera dados de interação de alta qualidade por meio de geração automatizada de consultas e validação de correção, aproveitando o GUI-Owl para refinar trajetórias iterativamente, formando um ciclo de autoaperfeiçoamento. Ele suporta diversos pipelines de dados e reduz a anotação manual. (2) Capacidades Fundamentais Diversas do Agente: ao integrar fundamentação de UI, planejamento, semântica de ação e padrões de raciocínio, o GUI-Owl suporta tomada de decisão de ponta a ponta e pode atuar como um componente modular em sistemas multiagentes. (3) RL de Ambiente Escalável: desenvolvemos uma estrutura de aprendizado por reforço escalável com treinamento totalmente assíncrono para alinhamento com o mundo real. Também introduzimos a Otimização de Política Relativa com Consciência de Trajetória (TRPO) para RL online, alcançando 34,9 no OSWorld. O GUI-Owl e o Mobile-Agent-v3 são de código aberto em https://github.com/X-PLUG/MobileAgent.
English
This paper introduces GUI-Owl, a foundational GUI agent model that achieves state-of-the-art performance among open-source end-to-end models on ten GUI benchmarks across desktop and mobile environments, covering grounding, question answering, planning, decision-making, and procedural knowledge. GUI-Owl-7B achieves 66.4 on AndroidWorld and 29.4 on OSWorld. Building on this, we propose Mobile-Agent-v3, a general-purpose GUI agent framework that further improves performance to 73.3 on AndroidWorld and 37.7 on OSWorld, setting a new state-of-the-art for open-source GUI agent frameworks. GUI-Owl incorporates three key innovations: (1) Large-scale Environment Infrastructure: a cloud-based virtual environment spanning Android, Ubuntu, macOS, and Windows, enabling our Self-Evolving GUI Trajectory Production framework. This generates high-quality interaction data via automated query generation and correctness validation, leveraging GUI-Owl to refine trajectories iteratively, forming a self-improving loop. It supports diverse data pipelines and reduces manual annotation. (2) Diverse Foundational Agent Capabilities: by integrating UI grounding, planning, action semantics, and reasoning patterns, GUI-Owl supports end-to-end decision-making and can act as a modular component in multi-agent systems. (3) Scalable Environment RL: we develop a scalable reinforcement learning framework with fully asynchronous training for real-world alignment. We also introduce Trajectory-aware Relative Policy Optimization (TRPO) for online RL, achieving 34.9 on OSWorld. GUI-Owl and Mobile-Agent-v3 are open-sourced at https://github.com/X-PLUG/MobileAgent.
PDF613August 22, 2025