MobileGym: Een verifieerbaar en hoogparallel simulatieplatform voor onderzoek naar mobiele GUI-agenten

Samenvatting

We presenteren MobileGym, een browser-gehoste, lichtgewicht, volledig controleerbare omgeving voor dagelijks mobiel gebruik, gericht op interactietrouw zonder propriëtaire backend na te bootsen. Het biedt twee mogelijkheden die voorheen buiten bereik waren van alledaagse apps: verifieerbare uitkomstsignalen door deterministische toestandsgebaseerde beoordeling over gestructureerde JSON-toestand, en schaalbare online RL door goedkope parallelle rollouts. De volledige omgevingstoestand wordt vastgelegd, geconfigureerd, afgesplitst en vergeleken als gestructureerde JSON, en een enkele server kan honderden parallelle instanties hosten, met ongeveer 400 MB geheugen per instantie en een koude start van ongeveer 3 s. Een gelaagd toestandsmodel en een declaratief taakdefinitiekader houden toestandsprogrammeerbaarheid en taakcreatie op schaal praktisch, en een enkel programmatisch beoordelingsmechanisme levert zowel deterministische evaluatie-uitspraken als dichte RL-beloningen. De bijbehorende MobileGym-Bench biedt 416 geparametriseerde taaksjablonen, waaronder 256 test- en 160 trainingssjablonen, over 28 apps, met deterministische beoordelaars en een gestructureerd AnswerSheet-protocol dat mislukkingen bij vrij-tekst matching voorkomt. In een Sim-to-Real-casestudy behaalt GRPO op Qwen3-VL-4B-Instruct een winst van +12,8 procentpunt op de testset van 256 taken, en op een subset van 59 taken met signaal van echte apparaten behoudt uitvoering op een echt apparaat 95,1% van de trainingswinst aan de simulatiezijde. Projectpagina: https://mobilegym.github.io.

English

We present MobileGym, a browser-hosted, lightweight, fully controllable environment for everyday mobile use, targeting interaction fidelity without replicating proprietary backends. It enables two capabilities previously out of reach for everyday apps: verifiable outcome signals through deterministic state-based judging over structured JSON state, and scalable online RL through low-cost parallel rollouts. The full environment state is captured, configured, forked, and compared as structured JSON, and a single server can host hundreds of parallel instances, with about 400 MB memory per instance and about 3 s cold start. A layered state model and a declarative task-definition framework keep state programmability and task creation practical at scale, and a single programmatic judging mechanism delivers both deterministic evaluation verdicts and dense RL rewards. The accompanying MobileGym-Bench provides 416 parameterized task templates, including 256 test and 160 train templates, over 28 apps, with deterministic judges and a structured AnswerSheet protocol that avoids free-text matching failures. In a Sim-to-Real case study, GRPO on Qwen3-VL-4B-Instruct gains +12.8 percentage points on the 256-task test set, and on a 59-task real-device signal subset, real-device execution retains 95.1% of the simulation-side training gain. Project page: https://mobilegym.github.io.