MobileGym : une plateforme de simulation vérifiable et hautement parallèle pour la recherche sur les agents GUI mobiles

Résumé

Nous présentons MobileGym, un environnement léger, entièrement contrôlable et hébergé dans un navigateur pour une utilisation mobile quotidienne, visant la fidélité d'interaction sans reproduire de serveurs propriétaires. Il permet deux capacités jusqu'alors inaccessibles aux applications courantes : des signaux de résultats vérifiables grâce à une évaluation déterministe basée sur l'état à partir d'un état JSON structuré, et un apprentissage par renforcement (RL) en ligne évolutive par des déploiements parallèles à faible coût. L'état complet de l'environnement est capturé, configuré, dupliqué et comparé sous forme de JSON structuré, et un seul serveur peut héberger des centaines d'instances parallèles, avec environ 400 Mo de mémoire par instance et un démarrage à froid d'environ 3 s. Un modèle d'état en couches et un cadre déclaratif de définition de tâches maintiennent la programmabilité de l'état et la création de tâches à grande échelle, et un mécanisme d'évaluation programmatique unique fournit à la fois des verdicts d'évaluation déterministes et des récompenses RL denses. L'ensemble MobileGym-Bench associé propose 416 modèles de tâches paramétrés, dont 256 modèles de test et 160 d'entraînement, répartis sur 28 applications, avec des évaluateurs déterministes et un protocole AnswerSheet structuré évitant les échecs de correspondance en texte libre. Dans une étude de cas Sim-to-Réel, GRPO sur Qwen3-VL-4B-Instruct gagne +12,8 points de pourcentage sur l'ensemble de test de 256 tâches, et sur un sous-ensemble de signaux sur appareil réel de 59 tâches, l'exécution sur appareil réel conserve 95,1 % du gain d'entraînement côté simulation. Page du projet : https://mobilegym.github.io.

English

We present MobileGym, a browser-hosted, lightweight, fully controllable environment for everyday mobile use, targeting interaction fidelity without replicating proprietary backends. It enables two capabilities previously out of reach for everyday apps: verifiable outcome signals through deterministic state-based judging over structured JSON state, and scalable online RL through low-cost parallel rollouts. The full environment state is captured, configured, forked, and compared as structured JSON, and a single server can host hundreds of parallel instances, with about 400 MB memory per instance and about 3 s cold start. A layered state model and a declarative task-definition framework keep state programmability and task creation practical at scale, and a single programmatic judging mechanism delivers both deterministic evaluation verdicts and dense RL rewards. The accompanying MobileGym-Bench provides 416 parameterized task templates, including 256 test and 160 train templates, over 28 apps, with deterministic judges and a structured AnswerSheet protocol that avoids free-text matching failures. In a Sim-to-Real case study, GRPO on Qwen3-VL-4B-Instruct gains +12.8 percentage points on the 256-task test set, and on a 59-task real-device signal subset, real-device execution retains 95.1% of the simulation-side training gain. Project page: https://mobilegym.github.io.