iOSWorld: бенчмарк для персональных интеллектуальных телефонных агентов

Аннотация

Полезный телефонный агент должен обладать личностным интеллектом. Он должен учитывать идентичность пользователя, его историю и предпочтения, хранящиеся на устройстве, а не просто выполнять изолированные инструкции в безличной среде. Существующие бенчмарки мобильных агентов лишены такой персонализации. Мы представляем iOSWorld — первый интерактивный бенчмарк для нативного симулятора iOS, построенный на основе постоянной идентичности пользователя, охватывающей 26 вновь созданных приложений iOS. Эти приложения содержат связанные данные, такие как транзакции, сообщения, записи поездок, социальные связи и финансовая активность. iOSWorld включает 133 задачи трех возрастающих уровней сложности. Задачи в рамках одного приложения (27) проверяют работу с одним приложением, задачи в рамках нескольких приложений (60) охватывают от 2 до 8 приложений, а задачи на память и персонализацию (46) требуют от агентов выявления закономерностей в персональных данных. Мы оцениваем передовые модели и модели с открытым исходным кодом для управления компьютером в двух режимах: только визуальный доступ и привилегированный доступ (визуальный + XML). Лучшая конфигурация достигает 52% в целом, но лишь 37% на задачах с несколькими приложениями. Привилегированный доступ (визуальный + XML) повышает показатели передовых моделей на 26 процентных пунктов, тогда как более мелкие модели не выигрывают от дополнительного ввода из дерева доступности. Мы публикуем iOSWorld как бенчмарк с открытым исходным кодом, включающий все приложения, начальные данные, задачи, критерии оценки и код для оценивания.

English

A useful phone agent needs to be personally intelligent. It should reason over a user's identity, history, and preferences as they exist on the device, not just follow isolated instructions in an impersonal sandbox. Existing mobile agent benchmarks lack this kind of personalization. We introduce iOSWorld, the first interactive native iOS simulator benchmark built around a persistent user identity spanning 26 newly built iOS apps. These apps contain connected data such as transactions, messages, travel records, social relationships, and financial activity. iOSWorld includes 133 tasks across three increasingly difficult categories. Single-app tasks (27) test one app, multi-app tasks (60) span 2 to 8 apps, and memory and personalization tasks (46) require agents to infer patterns from personal data. We evaluate frontier and open-source computer-use models in both vision-only and privileged vision+XML settings. The best configuration reaches 52\% overall but only 37\% on multi-app tasks. Privileged vision+XML access improves frontier models by up to 26 percentage points, while smaller models do not benefit from added accessibility-tree input. We release iOSWorld as an open-source benchmark with all apps, seeded data, tasks, rubrics, and evaluation code.