MobileGym: Una plataforma de simulación verificable y altamente paralela para la investigación de agentes de GUI móvil
MobileGym: A Verifiable and Highly Parallel Simulation Platform for Mobile GUI Agent Research
May 25, 2026
Autores: Dingbang Wu, Rui Hao, Haiyang Wang, Shuzhe Wu, Han Xiao, Zhenghong Li, Bojiang Zhou, Zheng Ju, Zichen Liu, Lue Fan, Zhaoxiang Zhang
cs.AI
Resumen
Presentamos MobileGym, un entorno ligero, totalmente controlable y alojado en el navegador para el uso diario en dispositivos móviles, que apunta a la fidelidad de la interacción sin replicar backends propietarios. Permite dos capacidades previamente fuera del alcance de las aplicaciones cotidianas: señales de resultado verificables mediante evaluación determinista basada en el estado sobre un estado JSON estructurado, y RL en línea escalable mediante ejecuciones paralelas de bajo costo. El estado completo del entorno se captura, configura, bifurca y compara como JSON estructurado, y un solo servidor puede alojar cientos de instancias paralelas, con aproximadamente 400 MB de memoria por instancia y unos 3 segundos de arranque en frío. Un modelo de estado en capas y un marco declarativo de definición de tareas mantienen la programabilidad del estado y la creación de tareas de manera práctica a escala, y un único mecanismo de evaluación programática proporciona tanto veredictos de evaluación deterministas como recompensas densas de RL. El MobileGym-Bench asociado proporciona 416 plantillas de tareas parametrizadas, incluyendo 256 plantillas de prueba y 160 de entrenamiento, en 28 aplicaciones, con evaluadores deterministas y un protocolo AnswerSheet estructurado que evita fallos de coincidencia de texto libre. En un estudio de caso de Sim-to-Real, GRPO sobre Qwen3-VL-4B-Instruct obtiene +12.8 puntos porcentuales en el conjunto de prueba de 256 tareas, y en un subconjunto de señales de dispositivos reales de 59 tareas, la ejecución en dispositivo real retiene el 95.1% de la ganancia de entrenamiento del lado de la simulación. Página del proyecto: https://mobilegym.github.io.
English
We present MobileGym, a browser-hosted, lightweight, fully controllable environment for everyday mobile use, targeting interaction fidelity without replicating proprietary backends. It enables two capabilities previously out of reach for everyday apps: verifiable outcome signals through deterministic state-based judging over structured JSON state, and scalable online RL through low-cost parallel rollouts. The full environment state is captured, configured, forked, and compared as structured JSON, and a single server can host hundreds of parallel instances, with about 400 MB memory per instance and about 3 s cold start. A layered state model and a declarative task-definition framework keep state programmability and task creation practical at scale, and a single programmatic judging mechanism delivers both deterministic evaluation verdicts and dense RL rewards. The accompanying MobileGym-Bench provides 416 parameterized task templates, including 256 test and 160 train templates, over 28 apps, with deterministic judges and a structured AnswerSheet protocol that avoids free-text matching failures. In a Sim-to-Real case study, GRPO on Qwen3-VL-4B-Instruct gains +12.8 percentage points on the 256-task test set, and on a 59-task real-device signal subset, real-device execution retains 95.1% of the simulation-side training gain. Project page: https://mobilegym.github.io.