Training van open modellen voor agentisch telefoongebruik

Samenvatting

Telefoons worden een belangrijk uitvoeringsoppervlak voor algemene agenten, maar het trainen van open modellen voor betrouwbaar telefoongebruik blijft moeilijk omdat de omgeving die er bij implementatie toe doet—echte apparaten met echte apps—traag, toestandsgebonden, met neveneffecten, en moeilijk te resetten of verifiëren is, terwijl schaalbare mock-omgevingen slechts een benadering van echt gedrag geven. We presenteren PhoneBuddy, een trainingsrecept en een reeks open modellen voor agentisch telefoongebruik, dat een echte-app-omgeving combineert met een mock-app-omgeving, PhoneWorld, die uitvoerbare mock-apps reconstrueert op basis van de GUI-gebruiksstructuur van echte apps. PhoneBuddy begint met een gedeelde fase van begeleide fine-tuning op basis van trajecten die in beide omgevingen zijn verzameld, en vergelijkt vervolgens RL in de echte app met gemengde RL in beide omgevingen. In een menselijke evaluatie op 150 taken op echte telefoons, met apps, mini-apps en cross-app-workflows, verbetert het taak slagingspercentage van 36,67% na begeleide fine-tuning naar 40,67% na RL in de echte app en naar 45,33% na gemengde RL. Op AndroidWorld stijgt dezelfde progressie van 60,3% naar 77,2% naar 83,2%. Deze resultaten tonen aan dat mock-app-training geen vervanging is voor RL in de echte app, maar een complementaire bron van schaalbare, resetbare en automatisch gecontroleerde interactie. De winst is het grootst bij app- en mini-app-taken, terwijl langdurige cross-app-workflows een belangrijke open uitdaging blijven.

English

Phones are becoming an important execution surface for general-purpose agents, but training open models for reliable phone use remains difficult because the environment that matters at deployment, real devices running real apps, is slow, stateful, side-effectful, and hard to reset or verify, while scalable mock environments only approximate real behavior. We present PhoneBuddy, a training recipe and open-model line for agentic phone use that combines a real-app environment with a mock-app environment, PhoneWorld, which reconstructs runnable mock apps from real GUI usage structure. PhoneBuddy first builds a shared supervised fine-tuning stage from trajectories collected in both environments, then compares real-app RL against mixed RL across both environments. Across a 150-task human evaluation on real phones spanning apps, mini-apps, and cross-app workflows, task success rate improves from 36.67\% after supervised fine-tuning to 40.67\% after real-app RL and 45.33\% after mixed RL. On AndroidWorld, the same progression rises from 60.3\% to 77.2\% to 83.2\%. These results show that mock-app training is not a replacement for real-app RL, but a complementary source of scalable, resettable, and automatically checked interaction. The gains are strongest on app and mini-app tasks, while long-horizontal cross-app workflows remain an important open challenge.