ChatPaper.aiChatPaper

Mobile-Agent-v3: Базовые агенты для автоматизации графического интерфейса пользователя

Mobile-Agent-v3: Foundamental Agents for GUI Automation

August 21, 2025
Авторы: Jiabo Ye, Xi Zhang, Haiyang Xu, Haowei Liu, Junyang Wang, Zhaoqing Zhu, Ziwei Zheng, Feiyu Gao, Junjie Cao, Zhengxi Lu, Jitong Liao, Qi Zheng, Fei Huang, Jingren Zhou, Ming Yan
cs.AI

Аннотация

В данной статье представлена модель GUI-Owl, фундаментальная модель GUI-агента, которая демонстрирует наилучшие результаты среди открытых end-to-end моделей на десяти тестовых наборах для графических интерфейсов, охватывающих настольные и мобильные среды, включая задачи заземления, ответов на вопросы, планирования, принятия решений и процедурных знаний. GUI-Owl-7B достигает показателей 66.4 на AndroidWorld и 29.4 на OSWorld. На основе этой модели мы предлагаем Mobile-Agent-v3, универсальную платформу GUI-агента, которая дополнительно улучшает производительность до 73.3 на AndroidWorld и 37.7 на OSWorld, устанавливая новый стандарт для открытых платформ GUI-агентов. GUI-Owl включает три ключевых инновации: (1) Масштабируемая инфраструктура среды: облачная виртуальная среда, охватывающая Android, Ubuntu, macOS и Windows, что позволяет реализовать нашу платформу Self-Evolving GUI Trajectory Production. Эта платформа генерирует высококачественные данные взаимодействия через автоматизированное создание запросов и проверку корректности, используя GUI-Owl для итеративного улучшения траекторий, формируя самосовершенствующийся цикл. Она поддерживает разнообразные конвейеры данных и сокращает необходимость ручной аннотации. (2) Разнообразные базовые возможности агента: за счет интеграции заземления в интерфейсе, планирования, семантики действий и шаблонов рассуждений, GUI-Owl поддерживает сквозное принятие решений и может выступать в качестве модульного компонента в мультиагентных системах. (3) Масштабируемое обучение с подкреплением (RL): мы разработали масштабируемую платформу RL с полностью асинхронным обучением для согласования с реальными условиями. Также мы представляем Trajectory-aware Relative Policy Optimization (TRPO) для онлайн RL, достигая показателя 34.9 на OSWorld. GUI-Owl и Mobile-Agent-v3 доступны в открытом доступе по адресу https://github.com/X-PLUG/MobileAgent.
English
This paper introduces GUI-Owl, a foundational GUI agent model that achieves state-of-the-art performance among open-source end-to-end models on ten GUI benchmarks across desktop and mobile environments, covering grounding, question answering, planning, decision-making, and procedural knowledge. GUI-Owl-7B achieves 66.4 on AndroidWorld and 29.4 on OSWorld. Building on this, we propose Mobile-Agent-v3, a general-purpose GUI agent framework that further improves performance to 73.3 on AndroidWorld and 37.7 on OSWorld, setting a new state-of-the-art for open-source GUI agent frameworks. GUI-Owl incorporates three key innovations: (1) Large-scale Environment Infrastructure: a cloud-based virtual environment spanning Android, Ubuntu, macOS, and Windows, enabling our Self-Evolving GUI Trajectory Production framework. This generates high-quality interaction data via automated query generation and correctness validation, leveraging GUI-Owl to refine trajectories iteratively, forming a self-improving loop. It supports diverse data pipelines and reduces manual annotation. (2) Diverse Foundational Agent Capabilities: by integrating UI grounding, planning, action semantics, and reasoning patterns, GUI-Owl supports end-to-end decision-making and can act as a modular component in multi-agent systems. (3) Scalable Environment RL: we develop a scalable reinforcement learning framework with fully asynchronous training for real-world alignment. We also introduce Trajectory-aware Relative Policy Optimization (TRPO) for online RL, achieving 34.9 on OSWorld. GUI-Owl and Mobile-Agent-v3 are open-sourced at https://github.com/X-PLUG/MobileAgent.
PDF483August 22, 2025