ChatPaper.aiChatPaper

MobileForge: アノテーションフリー適応によるモバイルGUIエージェントの階層的フィードバック誘導型ポリシー最適化

MobileForge: Annotation-Free Adaptation for Mobile GUI Agents with Hierarchical Feedback-Guided Policy Optimization

June 18, 2026
著者: Guangyi Liu, Pengxiang Zhao, Gao Wu, Yiwen Yin, Mading Li, Liang Liu, Congxiao Liu, Zhang Qi, Mengyan Wang, Liang Guo, Yong Liu
cs.AI

要旨

MLLMベースのモバイルGUIエージェントはUI理解とアクション実行において大幅な進歩を遂げてきたが、実際のターゲットアプリに適応させるには依然としてコストがかかる。なぜなら、モバイルアプリは多数存在し、頻繁に更新され、人間が記述したタスク、デモンストレーション、報酬ラベルでカバーすることが困難だからである。既存のアノテーションフリーGUI学習は手動による監督を削減するものの、ターゲットアプリの探索、カリキュラムマイニング、ロールアウト実行、フィードバックを結びつける統一的な基盤を欠いており、ポリシー最適化はしばしば孤立したロールアウトと粗い報酬に依存し、信頼性のある改善シグナルに変換することが難しい。本稿では、モバイルGUIエージェントのためのアノテーションフリー適応システムであるMobileForgeを提案する。MobileForgeは、実際のモバイルアプリインタラクションに基づいてタスク生成とロールアウト評価を行うMobileGymと、軌跡結果、ステップレベルのプロセスフィードバック、修正ヒントをヒント文脈化されたステップレベルGRPO更新に変換する階層的フィードバック誘導ポリシー最適化(HiFPO)から構成される。自動生成されたアノテーションフリー適応データのみを用いて、MobileForgeはQwen3-VL-8BをAndroidWorldで67.2%のPass@3に適応させ、クローズドデータのGUI特化ベースモデルGUI-Owl-1.5-8Bの69.0%に近い性能を達成した。MobileForge適応後のForgeOwl-8BはさらにAndroidWorldで77.6%のPass@3、ドメイン外のMobileWorld GUIのみの分割で41.0%の成功率を達成し、我々の評価において最強のオープンデータモバイルGUIエージェントを確立した。コード、データ、訓練済みモデルはhttps://mobile-forge.github.io/で公開予定である。
English
MLLM-based mobile GUI agents have made substantial progress in UI understanding and action execution, but adapting them to real target apps remains costly because mobile apps are numerous, frequently updated, and hard to cover with human-written tasks, demonstrations, or reward labels. Existing annotation-free GUI learning reduces manual supervision, yet lacks a unified substrate connecting target-app exploration, curriculum mining, rollout execution, and feedback, while policy optimization often relies on isolated rollouts and coarse rewards that are hard to convert into reliable improvement signals. We present MobileForge, an annotation-free adaptation system for mobile GUI agents. MobileForge consists of MobileGym, which grounds task generation and rollout evaluation in real mobile app interaction, and Hierarchical Feedback-Guided Policy Optimization (HiFPO), which turns trajectory outcomes, step-level process feedback, and corrective hints into hint-contextualized step-level GRPO updates. Using only automatically generated annotation-free adaptation data, MobileForge adapts Qwen3-VL-8B to 67.2% Pass@3 on AndroidWorld, close to the closed-data GUI-specialized GUI-Owl-1.5-8B base model at 69.0%. The MobileForge-adapted ForgeOwl-8B further reaches 77.6% Pass@3 on AndroidWorld and 41.0% success on the out-of-domain MobileWorld GUI-only split, establishing the strongest open-data mobile GUI agent in our evaluation. Code, data, and trained models will be released at https://mobile-forge.github.io/.