Mobile-Agent-v3: Базовые агенты для автоматизации графического интерфейса пользователя
Mobile-Agent-v3: Foundamental Agents for GUI Automation
August 21, 2025
Авторы: Jiabo Ye, Xi Zhang, Haiyang Xu, Haowei Liu, Junyang Wang, Zhaoqing Zhu, Ziwei Zheng, Feiyu Gao, Junjie Cao, Zhengxi Lu, Jitong Liao, Qi Zheng, Fei Huang, Jingren Zhou, Ming Yan
cs.AI
Аннотация
В данной статье представлена модель GUI-Owl, фундаментальная модель GUI-агента, которая демонстрирует наилучшие результаты среди открытых end-to-end моделей на десяти тестовых наборах для графических интерфейсов, охватывающих настольные и мобильные среды, включая задачи заземления, ответов на вопросы, планирования, принятия решений и процедурных знаний. GUI-Owl-7B достигает показателей 66.4 на AndroidWorld и 29.4 на OSWorld. На основе этой модели мы предлагаем Mobile-Agent-v3, универсальную платформу GUI-агента, которая дополнительно улучшает производительность до 73.3 на AndroidWorld и 37.7 на OSWorld, устанавливая новый стандарт для открытых платформ GUI-агентов. GUI-Owl включает три ключевых инновации: (1) Масштабируемая инфраструктура среды: облачная виртуальная среда, охватывающая Android, Ubuntu, macOS и Windows, что позволяет реализовать нашу платформу Self-Evolving GUI Trajectory Production. Эта платформа генерирует высококачественные данные взаимодействия через автоматизированное создание запросов и проверку корректности, используя GUI-Owl для итеративного улучшения траекторий, формируя самосовершенствующийся цикл. Она поддерживает разнообразные конвейеры данных и сокращает необходимость ручной аннотации. (2) Разнообразные базовые возможности агента: за счет интеграции заземления в интерфейсе, планирования, семантики действий и шаблонов рассуждений, GUI-Owl поддерживает сквозное принятие решений и может выступать в качестве модульного компонента в мультиагентных системах. (3) Масштабируемое обучение с подкреплением (RL): мы разработали масштабируемую платформу RL с полностью асинхронным обучением для согласования с реальными условиями. Также мы представляем Trajectory-aware Relative Policy Optimization (TRPO) для онлайн RL, достигая показателя 34.9 на OSWorld. GUI-Owl и Mobile-Agent-v3 доступны в открытом доступе по адресу https://github.com/X-PLUG/MobileAgent.
English
This paper introduces GUI-Owl, a foundational GUI agent model that achieves
state-of-the-art performance among open-source end-to-end models on ten GUI
benchmarks across desktop and mobile environments, covering grounding, question
answering, planning, decision-making, and procedural knowledge. GUI-Owl-7B
achieves 66.4 on AndroidWorld and 29.4 on OSWorld. Building on this, we propose
Mobile-Agent-v3, a general-purpose GUI agent framework that further improves
performance to 73.3 on AndroidWorld and 37.7 on OSWorld, setting a new
state-of-the-art for open-source GUI agent frameworks. GUI-Owl incorporates
three key innovations: (1) Large-scale Environment Infrastructure: a
cloud-based virtual environment spanning Android, Ubuntu, macOS, and Windows,
enabling our Self-Evolving GUI Trajectory Production framework. This generates
high-quality interaction data via automated query generation and correctness
validation, leveraging GUI-Owl to refine trajectories iteratively, forming a
self-improving loop. It supports diverse data pipelines and reduces manual
annotation. (2) Diverse Foundational Agent Capabilities: by integrating UI
grounding, planning, action semantics, and reasoning patterns, GUI-Owl supports
end-to-end decision-making and can act as a modular component in multi-agent
systems. (3) Scalable Environment RL: we develop a scalable reinforcement
learning framework with fully asynchronous training for real-world alignment.
We also introduce Trajectory-aware Relative Policy Optimization (TRPO) for
online RL, achieving 34.9 on OSWorld. GUI-Owl and Mobile-Agent-v3 are
open-sourced at https://github.com/X-PLUG/MobileAgent.