iOSWorld: 個人用インテリジェントフォンエージェントのためのベンチマーク

要旨

有用なフォンエージェントには、個人に合わせた知性が求められます。デバイス上に存在するユーザーの識別情報、履歴、嗜好を考慮して推論できる必要があり、非個人向けのサンドボックス内で孤立した指示に従うだけでは不十分です。既存のモバイルエージェントベンチマークには、このようなパーソナライゼーションが欠けています。そこで本稿では、iOSWorldを紹介します。これは、新たに構築した26のiOSアプリにわたる永続的なユーザー識別情報を基盤とする、初のインタラクティブなネイティブiOSシミュレータベンチマークです。これらのアプリには、取引、メッセージ、旅行記録、社会的関係、金融活動など、相互に関連するデータが含まれています。iOSWorldは、難易度が徐々に上がる3つのカテゴリにわたる133のタスクで構成されています。単一アプリタスク（27）は1つのアプリをテストし、複数アプリタスク（60）は2～8のアプリにまたがり、記憶とパーソナライゼーションタスク（46）はエージェントに個人データからパターンを推論することを要求します。我々は、視覚情報のみの設定と、特権的な視覚情報＋XMLの設定の両方で、最先端およびオープンソースのコンピュータ操作モデルを評価しました。最良の構成では全体で52%の達成率ですが、複数アプリタスクでは37%にとどまります。特権的な視覚情報＋XMLへのアクセスは、最先端モデルの性能を最大26ポイント向上させる一方、小規模モデルはアクセシビリティツリー入力を追加しても恩恵を受けません。iOSWorldを、すべてのアプリ、シードデータ、タスク、ルーブリック、評価コードを含むオープンソースベンチマークとして公開します。

English

A useful phone agent needs to be personally intelligent. It should reason over a user's identity, history, and preferences as they exist on the device, not just follow isolated instructions in an impersonal sandbox. Existing mobile agent benchmarks lack this kind of personalization. We introduce iOSWorld, the first interactive native iOS simulator benchmark built around a persistent user identity spanning 26 newly built iOS apps. These apps contain connected data such as transactions, messages, travel records, social relationships, and financial activity. iOSWorld includes 133 tasks across three increasingly difficult categories. Single-app tasks (27) test one app, multi-app tasks (60) span 2 to 8 apps, and memory and personalization tasks (46) require agents to infer patterns from personal data. We evaluate frontier and open-source computer-use models in both vision-only and privileged vision+XML settings. The best configuration reaches 52\% overall but only 37\% on multi-app tasks. Privileged vision+XML access improves frontier models by up to 26 percentage points, while smaller models do not benefit from added accessibility-tree input. We release iOSWorld as an open-source benchmark with all apps, seeded data, tasks, rubrics, and evaluation code.