MobileGym: Uma Plataforma de Simulação Verificável e Altamente Paralela para Pesquisa de Agentes de GUI Móvel

Resumo

Apresentamos o MobileGym, um ambiente leve, totalmente controlável e hospedado em navegador, voltado para o uso cotidiano em dispositivos móveis, visando fidelidade de interação sem replicar backends proprietários. Ele possibilita duas capacidades anteriormente inacessíveis para aplicativos cotidianos: sinais de resultado verificáveis por meio de julgamento determinístico baseado em estado sobre o estado JSON estruturado, e RL online escalável por meio de rollouts paralelos de baixo custo. O estado completo do ambiente é capturado, configurado, bifurcado e comparado como JSON estruturado, e um único servidor pode hospedar centenas de instâncias paralelas, com cerca de 400 MB de memória por instância e cerca de 3 s de inicialização a frio. Um modelo de estado em camadas e um framework declarativo de definição de tarefas mantêm a programabilidade do estado e a criação de tarefas em escala prática, e um único mecanismo de julgamento programático fornece tanto vereditos de avaliação determinísticos quanto recompensas densas de RL. O acompanhante MobileGym-Bench oferece 416 modelos de tarefas parametrizados, incluindo 256 modelos de teste e 160 de treino, em 28 aplicativos, com juízes determinísticos e um protocolo AnswerSheet estruturado que evita falhas de correspondência de texto livre. Em um estudo de caso Sim-to-Real, o GRPO no Qwen3-VL-4B-Instruct obteve +12,8 pontos percentuais no conjunto de teste de 256 tarefas e, em um subconjunto de sinais de 59 tarefas em dispositivos reais, a execução no dispositivo real manteve 95,1% do ganho de treinamento do lado da simulação. Página do projeto: https://mobilegym.github.io.

English

We present MobileGym, a browser-hosted, lightweight, fully controllable environment for everyday mobile use, targeting interaction fidelity without replicating proprietary backends. It enables two capabilities previously out of reach for everyday apps: verifiable outcome signals through deterministic state-based judging over structured JSON state, and scalable online RL through low-cost parallel rollouts. The full environment state is captured, configured, forked, and compared as structured JSON, and a single server can host hundreds of parallel instances, with about 400 MB memory per instance and about 3 s cold start. A layered state model and a declarative task-definition framework keep state programmability and task creation practical at scale, and a single programmatic judging mechanism delivers both deterministic evaluation verdicts and dense RL rewards. The accompanying MobileGym-Bench provides 416 parameterized task templates, including 256 test and 160 train templates, over 28 apps, with deterministic judges and a structured AnswerSheet protocol that avoids free-text matching failures. In a Sim-to-Real case study, GRPO on Qwen3-VL-4B-Instruct gains +12.8 percentage points on the 256-task test set, and on a 59-task real-device signal subset, real-device execution retains 95.1% of the simulation-side training gain. Project page: https://mobilegym.github.io.