Entraînement de modèles ouverts pour l’utilisation agentive du téléphone

Résumé

Les téléphones deviennent une surface d’exécution importante pour les agents polyvalents, mais l’entraînement de modèles ouverts à une utilisation fiable du téléphone reste difficile car l’environnement pertinent lors du déploiement—les appareils réels exécutant des applications réelles—est lent, doté d’un état, générateur d’effets de bord, et difficile à réinitialiser ou à vérifier, tandis que les environnements simulés évolutifs ne se rapprochent que du comportement réel. Nous présentons PhoneBuddy, une méthode d’entraînement et une gamme de modèles ouverts pour l’utilisation agentique du téléphone, qui combine un environnement d’applications réelles avec un environnement d’applications simulées, PhoneWorld, qui reconstruit des applications simulées exécutables à partir de la structure d’utilisation réelle de l’interface graphique. PhoneBuddy commence par une étape partagée de réglage fin supervisé à partir de trajectoires collectées dans les deux environnements, puis compare le RL sur applications réelles au RL mixte sur les deux environnements. Sur une évaluation humaine de 150 tâches sur des téléphones réels couvrant des applications, mini-applications et workflows inter-applications, le taux de réussite des tâches passe de 36,67 % après le réglage fin supervisé à 40,67 % après le RL sur applications réelles et à 45,33 % après le RL mixte. Sur AndroidWorld, cette même progression passe de 60,3 % à 77,2 % puis 83,2 %. Ces résultats montrent que l’entraînement sur applications simulées ne remplace pas le RL sur applications réelles, mais constitue une source complémentaire d’interaction évolutive, réinitialisable et vérifiable automatiquement. Les gains sont les plus marqués sur les tâches d’applications et de mini-applications, tandis que les workflows inter-applications de longue haleine restent un défi ouvert important.

English

Phones are becoming an important execution surface for general-purpose agents, but training open models for reliable phone use remains difficult because the environment that matters at deployment, real devices running real apps, is slow, stateful, side-effectful, and hard to reset or verify, while scalable mock environments only approximate real behavior. We present PhoneBuddy, a training recipe and open-model line for agentic phone use that combines a real-app environment with a mock-app environment, PhoneWorld, which reconstructs runnable mock apps from real GUI usage structure. PhoneBuddy first builds a shared supervised fine-tuning stage from trajectories collected in both environments, then compares real-app RL against mixed RL across both environments. Across a 150-task human evaluation on real phones spanning apps, mini-apps, and cross-app workflows, task success rate improves from 36.67\% after supervised fine-tuning to 40.67\% after real-app RL and 45.33\% after mixed RL. On AndroidWorld, the same progression rises from 60.3\% to 77.2\% to 83.2\%. These results show that mock-app training is not a replacement for real-app RL, but a complementary source of scalable, resettable, and automatically checked interaction. The gains are strongest on app and mini-app tasks, while long-horizontal cross-app workflows remain an important open challenge.