MobileForge: Annotatievrije Adaptatie voor Mobiele GUI-agenten met Hiërarchische Feedbackgestuurde Beleidsoptimalisatie

Samenvatting

MLLM-gebaseerde mobiele GUI-agents hebben aanzienlijke vooruitgang geboekt in het begrijpen van gebruikersinterfaces en het uitvoeren van acties, maar aanpassing aan echte doelapps blijft kostbaar omdat mobiele apps talrijk zijn, regelmatig worden bijgewerkt en moeilijk te dekken zijn met handmatig geschreven taken, demonstraties of beloningslabels. Bestaande annotatievrije GUI-leertechnieken verminderen handmatig toezicht, maar missen een uniform substraat dat verkenning van doelapps, curriculumwinning, rollout-uitvoering en feedback verbindt, terwijl beleidsoptimalisatie vaak afhankelijk is van geïsoleerde rollouts en grove beloningen die moeilijk om te zetten zijn in betrouwbare verbeteringssignalen. We presenteren MobileForge, een annotatievrij aanpassingssysteem voor mobiele GUI-agents. MobileForge bestaat uit MobileGym, dat taakgeneratie en rollout-evaluatie baseert op echte mobiele app-interactie, en Hiërarchische Feedback-Gestuurde Beleidsoptimalisatie (HiFPO), dat trajectuitkomsten, stapsgewijze procesfeedback en corrigerende hints omzet in hint-gecontextualiseerde stapsgewijze GRPO-updates. Met alleen automatisch gegenereerde annotatievrije aanpassingsdata past MobileForge Qwen3-VL-8B aan naar 67,2% Pass@3 op AndroidWorld, dicht bij het gesloten-data GUI-gespecialiseerde GUI-Owl-1.5-8B-basismodel met 69,0%. De door MobileForge aangepaste ForgeOwl-8B bereikt verder 77,6% Pass@3 op AndroidWorld en 41,0% succes op de out-of-domain MobileWorld GUI-only split, waarmee de sterkste open-data mobiele GUI-agent in onze evaluatie wordt gevestigd. Code, data en getrainde modellen worden vrijgegeven op https://mobile-forge.github.io/.

English

MLLM-based mobile GUI agents have made substantial progress in UI understanding and action execution, but adapting them to real target apps remains costly because mobile apps are numerous, frequently updated, and hard to cover with human-written tasks, demonstrations, or reward labels. Existing annotation-free GUI learning reduces manual supervision, yet lacks a unified substrate connecting target-app exploration, curriculum mining, rollout execution, and feedback, while policy optimization often relies on isolated rollouts and coarse rewards that are hard to convert into reliable improvement signals. We present MobileForge, an annotation-free adaptation system for mobile GUI agents. MobileForge consists of MobileGym, which grounds task generation and rollout evaluation in real mobile app interaction, and Hierarchical Feedback-Guided Policy Optimization (HiFPO), which turns trajectory outcomes, step-level process feedback, and corrective hints into hint-contextualized step-level GRPO updates. Using only automatically generated annotation-free adaptation data, MobileForge adapts Qwen3-VL-8B to 67.2% Pass@3 on AndroidWorld, close to the closed-data GUI-specialized GUI-Owl-1.5-8B base model at 69.0%. The MobileForge-adapted ForgeOwl-8B further reaches 77.6% Pass@3 on AndroidWorld and 41.0% success on the out-of-domain MobileWorld GUI-only split, establishing the strongest open-data mobile GUI agent in our evaluation. Code, data, and trained models will be released at https://mobile-forge.github.io/.