エージェント的電話操作のためのオープンモデルの訓練

要旨

スマートフォンは汎用エージェントにとって重要な実行基盤となりつつあるが、信頼性の高い電話操作を実現するオープンモデルの訓練は依然として困難である。なぜなら、デプロイ時に重要な環境である、実際のアプリを実行する実デバイスは、低速で、状態を持ち、副作用が多く、リセットや検証が難しい一方で、スケーラブルな模擬環境は現実の動作を近似するにすぎないからである。本稿では、実アプリ環境と、実際のGUI使用構造から実行可能な模擬アプリを再構築する模擬アプリ環境PhoneWorldを組み合わせた、エージェントによる電話操作のためのトレーニング手法およびオープンモデル群PhoneBuddyを提案する。PhoneBuddyはまず、両環境で収集した軌跡から共有の教師ありファインチューニング段階を構築し、次に実アプリRLと両環境にわたる混合RLを比較する。実機上での150タスク（アプリ、ミニアプリ、クロスアプリワークフローを含む）の人間による評価では、タスク成功率は教師ありファインチューニング後の36.67％から、実アプリRL後には40.67％、混合RL後には45.33％へと向上した。AndroidWorld上では、同じ推移が60.3％から77.2％、さらに83.2％へと上昇した。これらの結果は、模擬アプリ訓練が実アプリRLの代替ではなく、スケーラブルでリセット可能、かつ自動チェック可能な相互作用の補完的なソースであることを示している。改善効果はアプリおよびミニアプリタスクで最も顕著であり、一方で長時間にわたるクロスアプリワークフローは依然として重要な未解決課題である。

English

Phones are becoming an important execution surface for general-purpose agents, but training open models for reliable phone use remains difficult because the environment that matters at deployment, real devices running real apps, is slow, stateful, side-effectful, and hard to reset or verify, while scalable mock environments only approximate real behavior. We present PhoneBuddy, a training recipe and open-model line for agentic phone use that combines a real-app environment with a mock-app environment, PhoneWorld, which reconstructs runnable mock apps from real GUI usage structure. PhoneBuddy first builds a shared supervised fine-tuning stage from trajectories collected in both environments, then compares real-app RL against mixed RL across both environments. Across a 150-task human evaluation on real phones spanning apps, mini-apps, and cross-app workflows, task success rate improves from 36.67\% after supervised fine-tuning to 40.67\% after real-app RL and 45.33\% after mixed RL. On AndroidWorld, the same progression rises from 60.3\% to 77.2\% to 83.2\%. These results show that mock-app training is not a replacement for real-app RL, but a complementary source of scalable, resettable, and automatically checked interaction. The gains are strongest on app and mini-app tasks, while long-horizontal cross-app workflows remain an important open challenge.