iOSWorld: Ein Benchmark für persönlich intelligente Telefonagenten

Zusammenfassung

Ein nützlicher Telefon-Agent muss persönlich intelligent sein. Er sollte über die Identität, den Verlauf und die Präferenzen eines Benutzers nachdenken, wie sie auf dem Gerät existieren, und nicht nur isolierte Anweisungen in einer unpersönlichen Sandbox befolgen. Bestehende Benchmarks für mobile Agenten entbehren dieser Art von Personalisierung. Wir stellen iOSWorld vor, den ersten interaktiven nativen iOS-Simulator-Benchmark, der um eine persistente Benutzeridentität herum aufgebaut ist und 26 neu entwickelte iOS-Apps umfasst. Diese Apps enthalten verbundene Daten wie Transaktionen, Nachrichten, Reiseaufzeichnungen, soziale Beziehungen und finanzielle Aktivitäten. iOSWorld umfasst 133 Aufgaben in drei zunehmend schwierigen Kategorien. Einzel-App-Aufgaben (27) testen eine App, Multi-App-Aufgaben (60) erstrecken sich über 2 bis 8 Apps, und Gedächtnis- und Personalisierungsaufgaben (46) erfordern, dass Agenten Muster aus persönlichen Daten ableiten. Wir bewerten Spitzenmodelle und Open-Source-Modelle für die Computernutzung sowohl im reinen Vision-Modus als auch im privilegierten Vision+XML-Modus. Die beste Konfiguration erreicht insgesamt 52 %, aber nur 37 % bei Multi-App-Aufgaben. Privilegierter Vision+XML-Zugang verbessert Spitzenmodelle um bis zu 26 Prozentpunkte, während kleinere Modelle nicht von zusätzlichem Accessibility-Tree-Input profitieren. Wir veröffentlichen iOSWorld als Open-Source-Benchmark mit allen Apps, gesäten Daten, Aufgaben, Rubriken und Evaluationscode.

English

A useful phone agent needs to be personally intelligent. It should reason over a user's identity, history, and preferences as they exist on the device, not just follow isolated instructions in an impersonal sandbox. Existing mobile agent benchmarks lack this kind of personalization. We introduce iOSWorld, the first interactive native iOS simulator benchmark built around a persistent user identity spanning 26 newly built iOS apps. These apps contain connected data such as transactions, messages, travel records, social relationships, and financial activity. iOSWorld includes 133 tasks across three increasingly difficult categories. Single-app tasks (27) test one app, multi-app tasks (60) span 2 to 8 apps, and memory and personalization tasks (46) require agents to infer patterns from personal data. We evaluate frontier and open-source computer-use models in both vision-only and privileged vision+XML settings. The best configuration reaches 52\% overall but only 37\% on multi-app tasks. Privileged vision+XML access improves frontier models by up to 26 percentage points, while smaller models do not benefit from added accessibility-tree input. We release iOSWorld as an open-source benchmark with all apps, seeded data, tasks, rubrics, and evaluation code.