PhoneWorld : Passage à l’échelle des environnements pour agents utilisant un téléphone

Résumé

Un goulot d'étranglement central pour les agents utilisant des téléphones est qu'il est difficile de construire à grande échelle des environnements contrôlables et reproductibles couvrant les comportements mobiles réels. Les benchmarks existants pour agents mobiles ont réalisé des progrès importants en matière d'évaluation, mais ils ne fournissent pas en eux-mêmes un moyen scalable de construire de nombreux environnements d'utilisation de téléphone. Nous présentons PhoneWorld, un pipeline réutilisable qui convertit des trajectoires GUI réelles et des captures d'écran en environnements d'utilisation de téléphone contrôlables, en tâches exécutables, en vérificateurs automatiques et en déploiements d'entraînement. Plutôt que de construire un benchmark mobile à la fois manuellement, PhoneWorld utilise des trajectoires réelles pour identifier quels écrans sont importants, comment ces écrans sont connectés, quelles interactions doivent modifier l'état de l'environnement et quels objectifs utilisateur permettent une vérification automatique. À partir de ces signaux, il construit des applications Android simulées exécutables, soutenues par un contenu d'application en lecture seule et un état mutable, puis dérive des tâches exécutables, des vérificateurs basés sur des règles et des déploiements d'entraînement à partir des mêmes environnements. Dans son instantiation actuelle, PhoneWorld couvre 34 applications réparties dans 16 domaines, englobant des comportements mobiles courants des consommateurs tels que la recherche, la navigation, les achats, la réservation, les médias et les interactions sociales. Sous un budget d'entraînement fixe, le remplacement de 10 000 pas d'un corpus AndroidWorld auxiliaire dans une baseline basée sur AndroidWorld par une supervision étendue de PhoneWorld améliore simultanément les quatre benchmarks d'évaluation, augmentant HYMobileBench de 17,7 points, AndroidControl de 6,0 points, AndroidWorld de 14,7 points et PhoneWorld de 52,5 points. Nous étudions ensuite deux questions supplémentaires de mise à l'échelle : augmenter la quantité de supervision de PhoneWorld améliore fortement les performances sur PhoneWorld, et sous un budget fixe de PhoneWorld, élargir la couverture des applications génère des gains encore plus importants. Dans l'ensemble, PhoneWorld déplace l'attention de la construction d'un benchmark mobile à la fois vers la mise à l'échelle de l'offre d'environnements d'utilisation de téléphone eux-mêmes.

English

A central bottleneck for phone-use agents is that controllable, reproducible environments covering real mobile behavior are hard to build at scale. Existing mobile-agent benchmarks have made important progress on evaluation, but they do not by themselves provide a scalable way to construct many new phone-use environments. We present PhoneWorld, a reusable pipeline that converts real GUI trajectories and screenshots into controllable phone-use environments, executable tasks, automatic verifiers, and training rollouts. Rather than hand-building one mobile benchmark at a time, PhoneWorld uses real trajectories to recover which screens matter, how screens connect, which interactions must change environment state, and which user goals admit automatic verification. From these signals, it builds runnable mock Android apps backed by read-only app content and mutable state, then derives executable tasks, rule-based verifiers, and training rollouts from the same environments. In its current instantiation, PhoneWorld covers 34 apps across 16 domains, spanning common consumer mobile behaviors such as search, browsing, shopping, booking, media, and social interaction. Under a fixed training budget, replacing 10K steps from an auxiliary AndroidWorld corpus in an AndroidWorld-based baseline with broad PhoneWorld supervision improves all four evaluation benchmarks at once, raising HYMobileBench by 17.7 points, AndroidControl by 6.0 points, AndroidWorld by 14.7 points, and PhoneWorld by 52.5 points. We then study two additional scaling questions: increasing the amount of PhoneWorld supervision strongly improves PhoneWorld performance, and under a fixed PhoneWorld budget, expanding app coverage yields even larger gains. Overall, PhoneWorld shifts the focus from building one mobile benchmark at a time to scaling the supply of phone-use environments themselves.