iOSWorld: Un benchmark para agentes telefónicos personalmente inteligentes

Resumen

Un agente telefónico útil debe ser inteligente a nivel personal. Debe razonar sobre la identidad, el historial y las preferencias del usuario tal como existen en el dispositivo, no solo seguir instrucciones aisladas en un entorno aislado e impersonal. Los benchmarks existentes para agentes móviles carecen de este tipo de personalización. Presentamos iOSWorld, el primer benchmark interactivo de simulador nativo de iOS construido en torno a una identidad de usuario persistente que abarca 26 aplicaciones iOS recién creadas. Estas aplicaciones contienen datos conectados, como transacciones, mensajes, registros de viajes, relaciones sociales y actividad financiera. iOSWorld incluye 133 tareas en tres categorías de dificultad creciente. Las tareas de una sola aplicación (27) prueban una aplicación, las tareas de múltiples aplicaciones (60) abarcan de 2 a 8 aplicaciones, y las tareas de memoria y personalización (46) requieren que los agentes infieran patrones a partir de datos personales. Evaluamos modelos de uso de computadora de frontera y de código abierto en configuraciones de solo visión y visión+XML privilegiada. La mejor configuración alcanza un 52% en general, pero solo un 37% en tareas de múltiples aplicaciones. El acceso privilegiado a visión+XML mejora los modelos de frontera hasta en 26 puntos porcentuales, mientras que los modelos más pequeños no se benefician de la entrada adicional del árbol de accesibilidad. Publicamos iOSWorld como un benchmark de código abierto con todas las aplicaciones, datos semilla, tareas, rúbricas y código de evaluación.

English

A useful phone agent needs to be personally intelligent. It should reason over a user's identity, history, and preferences as they exist on the device, not just follow isolated instructions in an impersonal sandbox. Existing mobile agent benchmarks lack this kind of personalization. We introduce iOSWorld, the first interactive native iOS simulator benchmark built around a persistent user identity spanning 26 newly built iOS apps. These apps contain connected data such as transactions, messages, travel records, social relationships, and financial activity. iOSWorld includes 133 tasks across three increasingly difficult categories. Single-app tasks (27) test one app, multi-app tasks (60) span 2 to 8 apps, and memory and personalization tasks (46) require agents to infer patterns from personal data. We evaluate frontier and open-source computer-use models in both vision-only and privileged vision+XML settings. The best configuration reaches 52\% overall but only 37\% on multi-app tasks. Privileged vision+XML access improves frontier models by up to 26 percentage points, while smaller models do not benefit from added accessibility-tree input. We release iOSWorld as an open-source benchmark with all apps, seeded data, tasks, rubrics, and evaluation code.