Mobile-Agent-v3: Базовые агенты для автоматизации графического интерфейса пользователя

Аннотация

В данной статье представлена модель GUI-Owl, фундаментальная модель GUI-агента, которая демонстрирует наилучшие результаты среди открытых end-to-end моделей на десяти тестовых наборах для графических интерфейсов, охватывающих настольные и мобильные среды, включая задачи заземления, ответов на вопросы, планирования, принятия решений и процедурных знаний. GUI-Owl-7B достигает показателей 66.4 на AndroidWorld и 29.4 на OSWorld. На основе этой модели мы предлагаем Mobile-Agent-v3, универсальную платформу GUI-агента, которая дополнительно улучшает производительность до 73.3 на AndroidWorld и 37.7 на OSWorld, устанавливая новый стандарт для открытых платформ GUI-агентов. GUI-Owl включает три ключевых инновации: (1) Масштабируемая инфраструктура среды: облачная виртуальная среда, охватывающая Android, Ubuntu, macOS и Windows, что позволяет реализовать нашу платформу Self-Evolving GUI Trajectory Production. Эта платформа генерирует высококачественные данные взаимодействия через автоматизированное создание запросов и проверку корректности, используя GUI-Owl для итеративного улучшения траекторий, формируя самосовершенствующийся цикл. Она поддерживает разнообразные конвейеры данных и сокращает необходимость ручной аннотации. (2) Разнообразные базовые возможности агента: за счет интеграции заземления в интерфейсе, планирования, семантики действий и шаблонов рассуждений, GUI-Owl поддерживает сквозное принятие решений и может выступать в качестве модульного компонента в мультиагентных системах. (3) Масштабируемое обучение с подкреплением (RL): мы разработали масштабируемую платформу RL с полностью асинхронным обучением для согласования с реальными условиями. Также мы представляем Trajectory-aware Relative Policy Optimization (TRPO) для онлайн RL, достигая показателя 34.9 на OSWorld. GUI-Owl и Mobile-Agent-v3 доступны в открытом доступе по адресу https://github.com/X-PLUG/MobileAgent.

English

This paper introduces GUI-Owl, a foundational GUI agent model that achieves state-of-the-art performance among open-source end-to-end models on ten GUI benchmarks across desktop and mobile environments, covering grounding, question answering, planning, decision-making, and procedural knowledge. GUI-Owl-7B achieves 66.4 on AndroidWorld and 29.4 on OSWorld. Building on this, we propose Mobile-Agent-v3, a general-purpose GUI agent framework that further improves performance to 73.3 on AndroidWorld and 37.7 on OSWorld, setting a new state-of-the-art for open-source GUI agent frameworks. GUI-Owl incorporates three key innovations: (1) Large-scale Environment Infrastructure: a cloud-based virtual environment spanning Android, Ubuntu, macOS, and Windows, enabling our Self-Evolving GUI Trajectory Production framework. This generates high-quality interaction data via automated query generation and correctness validation, leveraging GUI-Owl to refine trajectories iteratively, forming a self-improving loop. It supports diverse data pipelines and reduces manual annotation. (2) Diverse Foundational Agent Capabilities: by integrating UI grounding, planning, action semantics, and reasoning patterns, GUI-Owl supports end-to-end decision-making and can act as a modular component in multi-agent systems. (3) Scalable Environment RL: we develop a scalable reinforcement learning framework with fully asynchronous training for real-world alignment. We also introduce Trajectory-aware Relative Policy Optimization (TRPO) for online RL, achieving 34.9 on OSWorld. GUI-Owl and Mobile-Agent-v3 are open-sourced at https://github.com/X-PLUG/MobileAgent.

Mobile-Agent-v3: Базовые агенты для автоматизации графического интерфейса пользователя

Mobile-Agent-v3: Foundamental Agents for GUI Automation

Аннотация

Support