MobileGym: Eine verifizierbare und hochparallele Simulationsplattform für die Forschung an mobilen GUI-Agenten

Zusammenfassung

Wir stellen MobileGym vor, eine browserbasierte, leichtgewichtige, vollständig steuerbare Umgebung für den alltäglichen mobilen Einsatz, die auf Interaktionstreue abzielt, ohne proprietäre Backends nachzubilden. Es ermöglicht zwei Fähigkeiten, die für alltägliche Apps bisher unerreichbar waren: überprüfbare Ergebnis-Signale durch deterministisches zustandsbasiertes Bewerten über strukturierte JSON-Zustände und skalierbares Online-RL durch kostengünstige parallele Rollouts. Der vollständige Zustand der Umgebung wird als strukturiertes JSON erfasst, konfiguriert, verzweigt und verglichen, und ein einzelner Server kann Hunderte paralleler Instanzen hosten, mit etwa 400 MB Speicher pro Instanz und etwa 3 s Kaltstart. Ein geschichtetes Zustandsmodell und ein deklaratives Aufgaben-Definitionsframework halten die Zustandsprogrammierbarkeit und die Aufgabenerstellung im großen Maßstab praktikabel, und ein einzelner programmatischer Bewertungsmechanismus liefert sowohl deterministische Bewertungsergebnisse als auch dichte RL-Belohnungen. Das begleitende MobileGym-Bench bietet 416 parametrisierte Aufgaben-Vorlagen, darunter 256 Test- und 160 Trainings-Vorlagen, über 28 Apps, mit deterministischen Bewertern und einem strukturierten AnswerSheet-Protokoll, das Fehler durch Freitext-Abgleich vermeidet. In einer Sim-to-Real-Fallstudie erzielt GRPO auf Qwen3-VL-4B-Instruct eine Steigerung von +12,8 Prozentpunkten auf dem 256-Aufgaben-Testset, und auf einem 59-Aufgaben-Teilset mit realen Gerätesignalen behält die Ausführung auf dem realen Gerät 95,1 % des trainingsseitigen Simulationsgewinns. Projektseite: https://mobilegym.github.io.

English

We present MobileGym, a browser-hosted, lightweight, fully controllable environment for everyday mobile use, targeting interaction fidelity without replicating proprietary backends. It enables two capabilities previously out of reach for everyday apps: verifiable outcome signals through deterministic state-based judging over structured JSON state, and scalable online RL through low-cost parallel rollouts. The full environment state is captured, configured, forked, and compared as structured JSON, and a single server can host hundreds of parallel instances, with about 400 MB memory per instance and about 3 s cold start. A layered state model and a declarative task-definition framework keep state programmability and task creation practical at scale, and a single programmatic judging mechanism delivers both deterministic evaluation verdicts and dense RL rewards. The accompanying MobileGym-Bench provides 416 parameterized task templates, including 256 test and 160 train templates, over 28 apps, with deterministic judges and a structured AnswerSheet protocol that avoids free-text matching failures. In a Sim-to-Real case study, GRPO on Qwen3-VL-4B-Instruct gains +12.8 percentage points on the 256-task test set, and on a 59-task real-device signal subset, real-device execution retains 95.1% of the simulation-side training gain. Project page: https://mobilegym.github.io.