ChatPaper.aiChatPaper

エージェント的電話操作のためのオープンモデルの訓練

Training Open Models for Agentic Phone Use

June 22, 2026
著者: Zhengyang Tang, Xin Lai, Pengyuan Lyu, Xinyuan Wang, Tianyi Bai, Chenxin Li, Yiduo Guo, Huawen Shen, Yuxuan Liu, Junyi Li, Zhengyao Fang, Yang Ding, Yi Zhang, Weinong Wang, Xingran Zhou, Liang Wu, Fei Tang, Sunqi Fan, Shangpin Peng, Zheng Ruan, Anran Zhang, Benyou Wang, Ji-Rong Wen, Rui Yan, Chengquan Zhang, Han Hu
cs.AI

要旨

スマートフォンは汎用エージェントにとって重要な実行基盤となりつつあるが、信頼性の高い電話操作を実現するオープンモデルの訓練は依然として困難である。なぜなら、デプロイ時に重要な環境である、実際のアプリを実行する実デバイスは、低速で、状態を持ち、副作用が多く、リセットや検証が難しい一方で、スケーラブルな模擬環境は現実の動作を近似するにすぎないからである。本稿では、実アプリ環境と、実際のGUI使用構造から実行可能な模擬アプリを再構築する模擬アプリ環境PhoneWorldを組み合わせた、エージェントによる電話操作のためのトレーニング手法およびオープンモデル群PhoneBuddyを提案する。PhoneBuddyはまず、両環境で収集した軌跡から共有の教師ありファインチューニング段階を構築し、次に実アプリRLと両環境にわたる混合RLを比較する。実機上での150タスク(アプリ、ミニアプリ、クロスアプリワークフローを含む)の人間による評価では、タスク成功率は教師ありファインチューニング後の36.67%から、実アプリRL後には40.67%、混合RL後には45.33%へと向上した。AndroidWorld上では、同じ推移が60.3%から77.2%、さらに83.2%へと上昇した。これらの結果は、模擬アプリ訓練が実アプリRLの代替ではなく、スケーラブルでリセット可能、かつ自動チェック可能な相互作用の補完的なソースであることを示している。改善効果はアプリおよびミニアプリタスクで最も顕著であり、一方で長時間にわたるクロスアプリワークフローは依然として重要な未解決課題である。
English
Phones are becoming an important execution surface for general-purpose agents, but training open models for reliable phone use remains difficult because the environment that matters at deployment, real devices running real apps, is slow, stateful, side-effectful, and hard to reset or verify, while scalable mock environments only approximate real behavior. We present PhoneBuddy, a training recipe and open-model line for agentic phone use that combines a real-app environment with a mock-app environment, PhoneWorld, which reconstructs runnable mock apps from real GUI usage structure. PhoneBuddy first builds a shared supervised fine-tuning stage from trajectories collected in both environments, then compares real-app RL against mixed RL across both environments. Across a 150-task human evaluation on real phones spanning apps, mini-apps, and cross-app workflows, task success rate improves from 36.67\% after supervised fine-tuning to 40.67\% after real-app RL and 45.33\% after mixed RL. On AndroidWorld, the same progression rises from 60.3\% to 77.2\% to 83.2\%. These results show that mock-app training is not a replacement for real-app RL, but a complementary source of scalable, resettable, and automatically checked interaction. The gains are strongest on app and mini-app tasks, while long-horizontal cross-app workflows remain an important open challenge.