MobileGym: Верифицируемая и высокопараллельная симуляционная платформа для исследований мобильных GUI-агентов

Аннотация

Мы представляем MobileGym — размещенный в браузере, легковесный и полностью управляемый среду для повседневного использования на мобильных устройствах, нацеленную на точность взаимодействия без повторения проприетарных внутренних компонентов. Она обеспечивает две ранее недоступные для повседневных приложений возможности: верифицируемые выходные сигналы благодаря детерминированной проверке на основе состояния по структурированному JSON-состоянию и масштабируемое онлайн-обучение с подкреплением за счет недорогих параллельных прогонов. Полное состояние среды захватывается, настраивается, разветвляется и сравнивается как структурированный JSON, а один сервер может обслуживать сотни параллельных экземпляров, затрачивая около 400 МБ памяти на экземпляр и около 3 секунд на холодный запуск. Многоуровневая модель состояния и декларативный фреймворк определения задач обеспечивают практическую программируемость состояния и создание задач в масштабе, а единый программный механизм проверки выдает как детерминированные оценочные вердикты, так и плотные награды для обучения с подкреплением. Прилагаемый бенчмарк MobileGym-Bench содержит 416 параметризованных шаблонов задач, включая 256 тестовых и 160 обучающих шаблонов, для 28 приложений, с детерминированными проверяющими модулями и структурированным протоколом AnswerSheet, исключающим ошибки сопоставления свободного текста. В исследовании случая «из симуляции в реальность» GRPO на Qwen3-VL-4B-Instruct дает прирост в +12,8 процентных пункта на тестовом наборе из 256 задач, а на подмножестве сигналов с реального устройства из 59 задач выполнение на реальном устройстве сохраняет 95,1% прироста от обучения в симуляции. Страница проекта: https://mobilegym.github.io.

English

We present MobileGym, a browser-hosted, lightweight, fully controllable environment for everyday mobile use, targeting interaction fidelity without replicating proprietary backends. It enables two capabilities previously out of reach for everyday apps: verifiable outcome signals through deterministic state-based judging over structured JSON state, and scalable online RL through low-cost parallel rollouts. The full environment state is captured, configured, forked, and compared as structured JSON, and a single server can host hundreds of parallel instances, with about 400 MB memory per instance and about 3 s cold start. A layered state model and a declarative task-definition framework keep state programmability and task creation practical at scale, and a single programmatic judging mechanism delivers both deterministic evaluation verdicts and dense RL rewards. The accompanying MobileGym-Bench provides 416 parameterized task templates, including 256 test and 160 train templates, over 28 apps, with deterministic judges and a structured AnswerSheet protocol that avoids free-text matching failures. In a Sim-to-Real case study, GRPO on Qwen3-VL-4B-Instruct gains +12.8 percentage points on the 256-task test set, and on a 59-task real-device signal subset, real-device execution retains 95.1% of the simulation-side training gain. Project page: https://mobilegym.github.io.