iOSWorld : un benchmark pour les agents téléphoniques intelligents personnalisés

Résumé

Un agent téléphonique utile doit être doté d'une intelligence personnelle. Il doit raisonner sur l'identité, l'historique et les préférences de l'utilisateur tels qu'ils existent sur l'appareil, et non se contenter de suivre des instructions isolées dans un bac à sable impersonnel. Les benchmarks existants pour agents mobiles ne tiennent pas compte de ce type de personnalisation. Nous présentons iOSWorld, le premier benchmark interactif natif sur simulateur iOS, construit autour d'une identité utilisateur persistante couvrant 26 applications iOS nouvellement développées. Ces applications contiennent des données connectées telles que des transactions, des messages, des enregistrements de voyages, des relations sociales et des activités financières. iOSWorld comprend 133 tâches réparties en trois catégories de difficulté croissante. Les tâches mono-application (27) testent une seule application, les tâches multi-applications (60) couvrent de 2 à 8 applications, et les tâches de mémoire et de personnalisation (46) exigent que les agents infèrent des motifs à partir de données personnelles. Nous évaluons des modèles de pointe et open source d'utilisation d'ordinateur dans des configurations de vision seule et de vision+XML privilégiée. La meilleure configuration atteint 52 % en global, mais seulement 37 % sur les tâches multi-applications. L'accès privilégié vision+XML améliore les modèles de pointe jusqu'à 26 points de pourcentage, tandis que les modèles plus petits ne bénéficient pas de l'apport de l'arbre d'accessibilité. Nous publions iOSWorld en tant que benchmark open source avec toutes les applications, les données initialisées, les tâches, les grilles d'évaluation et le code d'évaluation.

English

A useful phone agent needs to be personally intelligent. It should reason over a user's identity, history, and preferences as they exist on the device, not just follow isolated instructions in an impersonal sandbox. Existing mobile agent benchmarks lack this kind of personalization. We introduce iOSWorld, the first interactive native iOS simulator benchmark built around a persistent user identity spanning 26 newly built iOS apps. These apps contain connected data such as transactions, messages, travel records, social relationships, and financial activity. iOSWorld includes 133 tasks across three increasingly difficult categories. Single-app tasks (27) test one app, multi-app tasks (60) span 2 to 8 apps, and memory and personalization tasks (46) require agents to infer patterns from personal data. We evaluate frontier and open-source computer-use models in both vision-only and privileged vision+XML settings. The best configuration reaches 52\% overall but only 37\% on multi-app tasks. Privileged vision+XML access improves frontier models by up to 26 percentage points, while smaller models do not benefit from added accessibility-tree input. We release iOSWorld as an open-source benchmark with all apps, seeded data, tasks, rubrics, and evaluation code.