MobileGym: Una plataforma de simulación verificable y altamente paralela para la investigación de agentes de GUI móvil

Resumen

Presentamos MobileGym, un entorno ligero, totalmente controlable y alojado en el navegador para el uso diario en dispositivos móviles, que apunta a la fidelidad de la interacción sin replicar backends propietarios. Permite dos capacidades previamente fuera del alcance de las aplicaciones cotidianas: señales de resultado verificables mediante evaluación determinista basada en el estado sobre un estado JSON estructurado, y RL en línea escalable mediante ejecuciones paralelas de bajo costo. El estado completo del entorno se captura, configura, bifurca y compara como JSON estructurado, y un solo servidor puede alojar cientos de instancias paralelas, con aproximadamente 400 MB de memoria por instancia y unos 3 segundos de arranque en frío. Un modelo de estado en capas y un marco declarativo de definición de tareas mantienen la programabilidad del estado y la creación de tareas de manera práctica a escala, y un único mecanismo de evaluación programática proporciona tanto veredictos de evaluación deterministas como recompensas densas de RL. El MobileGym-Bench asociado proporciona 416 plantillas de tareas parametrizadas, incluyendo 256 plantillas de prueba y 160 de entrenamiento, en 28 aplicaciones, con evaluadores deterministas y un protocolo AnswerSheet estructurado que evita fallos de coincidencia de texto libre. En un estudio de caso de Sim-to-Real, GRPO sobre Qwen3-VL-4B-Instruct obtiene +12.8 puntos porcentuales en el conjunto de prueba de 256 tareas, y en un subconjunto de señales de dispositivos reales de 59 tareas, la ejecución en dispositivo real retiene el 95.1% de la ganancia de entrenamiento del lado de la simulación. Página del proyecto: https://mobilegym.github.io.

English

We present MobileGym, a browser-hosted, lightweight, fully controllable environment for everyday mobile use, targeting interaction fidelity without replicating proprietary backends. It enables two capabilities previously out of reach for everyday apps: verifiable outcome signals through deterministic state-based judging over structured JSON state, and scalable online RL through low-cost parallel rollouts. The full environment state is captured, configured, forked, and compared as structured JSON, and a single server can host hundreds of parallel instances, with about 400 MB memory per instance and about 3 s cold start. A layered state model and a declarative task-definition framework keep state programmability and task creation practical at scale, and a single programmatic judging mechanism delivers both deterministic evaluation verdicts and dense RL rewards. The accompanying MobileGym-Bench provides 416 parameterized task templates, including 256 test and 160 train templates, over 28 apps, with deterministic judges and a structured AnswerSheet protocol that avoids free-text matching failures. In a Sim-to-Real case study, GRPO on Qwen3-VL-4B-Instruct gains +12.8 percentage points on the 256-task test set, and on a 59-task real-device signal subset, real-device execution retains 95.1% of the simulation-side training gain. Project page: https://mobilegym.github.io.