iOSWorld: Um Benchmark para Agentes de Telefone Inteligentes Pessoais

Resumo

Um agente telefônico útil precisa ser inteligente de forma pessoal. Ele deve raciocinar sobre a identidade, o histórico e as preferências do usuário conforme existem no dispositivo, não apenas seguir instruções isoladas em uma sandbox impessoal. Os benchmarks existentes para agentes móveis carecem desse tipo de personalização. Apresentamos o iOSWorld, o primeiro benchmark interativo de simulador iOS nativo construído em torno de uma identidade de usuário persistente que abrange 26 novos aplicativos iOS. Esses aplicativos contêm dados conectados, como transações, mensagens, registros de viagem, relações sociais e atividades financeiras. O iOSWorld inclui 133 tarefas em três categorias de dificuldade crescente. Tarefas de aplicativo único (27) testam um app, tarefas de vários aplicativos (60) abrangem de 2 a 8 apps, e tarefas de memória e personalização (46) exigem que os agentes infiram padrões a partir de dados pessoais. Avaliamos modelos de uso de computador de fronteira e de código aberto em configurações apenas de visão e de visão privilegiada + XML. A melhor configuração atinge 52% no geral, mas apenas 37% em tarefas de vários aplicativos. O acesso privilegiado à visão + XML melhora os modelos de fronteira em até 26 pontos percentuais, enquanto modelos menores não se beneficiam da entrada adicional da árvore de acessibilidade. Lançamos o iOSWorld como um benchmark de código aberto com todos os aplicativos, dados semeados, tarefas, rubricas e código de avaliação.

English

A useful phone agent needs to be personally intelligent. It should reason over a user's identity, history, and preferences as they exist on the device, not just follow isolated instructions in an impersonal sandbox. Existing mobile agent benchmarks lack this kind of personalization. We introduce iOSWorld, the first interactive native iOS simulator benchmark built around a persistent user identity spanning 26 newly built iOS apps. These apps contain connected data such as transactions, messages, travel records, social relationships, and financial activity. iOSWorld includes 133 tasks across three increasingly difficult categories. Single-app tasks (27) test one app, multi-app tasks (60) span 2 to 8 apps, and memory and personalization tasks (46) require agents to infer patterns from personal data. We evaluate frontier and open-source computer-use models in both vision-only and privileged vision+XML settings. The best configuration reaches 52\% overall but only 37\% on multi-app tasks. Privileged vision+XML access improves frontier models by up to 26 percentage points, while smaller models do not benefit from added accessibility-tree input. We release iOSWorld as an open-source benchmark with all apps, seeded data, tasks, rubrics, and evaluation code.