PhoneWorld: Skalierung von Agentenumgebungen zur Telefonnutzung

Zusammenfassung

Ein zentraler Engpass für Smartphone-Nutzungs-Agenten besteht darin, dass steuerbare, reproduzierbare Umgebungen, die echtes mobiles Verhalten abdecken, schwer in großem Maßstab zu erstellen sind. Bestehende Mobile-Agent-Benchmarks haben wichtige Fortschritte bei der Evaluierung erzielt, bieten aber selbst keine skalierbare Möglichkeit, viele neue Smartphone-Nutzungsumgebungen zu konstruieren. Wir stellen PhoneWorld vor, eine wiederverwendbare Pipeline, die reale GUI-Trajektorien und Screenshots in steuerbare Smartphone-Nutzungsumgebungen, ausführbare Aufgaben, automatische Verifizierer und Trainingsrollouts umwandelt. Anstatt jeweils einen mobilen Benchmark von Hand zu erstellen, nutzt PhoneWorld reale Trajektorien, um zu ermitteln, welche Bildschirme relevant sind, wie Bildschirme verbunden sind, welche Interaktionen den Umgebungszustand ändern müssen und welche Benutzerziele eine automatische Verifizierung ermöglichen. Aus diesen Signalen baut es ausführbare nachgebildete Android-Apps, die durch schreibgeschützte App-Inhalte und veränderlichen Zustand unterstützt werden, und leitet dann aus denselben Umgebungen ausführbare Aufgaben, regelbasierte Verifizierer und Trainingsrollouts ab. In seiner derzeitigen Ausprägung umfasst PhoneWorld 34 Apps aus 16 Domänen, die gängige Verhaltensweisen mobiler Nutzer wie Suche, Surfen, Einkaufen, Buchen, Medien und soziale Interaktion abdecken. Bei einem festen Trainingsbudget verbessert das Ersetzen von 10.000 Schritten aus einem AndroidWorld-Hilfskorpus in einer auf AndroidWorld basierenden Baseline durch breite PhoneWorld-Überwachung alle vier Evaluations-Benchmarks gleichzeitig, wobei HYMobileBench um 17,7 Punkte, AndroidControl um 6,0 Punkte, AndroidWorld um 14,7 Punkte und PhoneWorld um 52,5 Punkte steigt. Anschließend untersuchen wir zwei zusätzliche Skalierungsfragen: Die Erhöhung der Menge der PhoneWorld-Überwachung verbessert die PhoneWorld-Leistung deutlich, und bei einem festen PhoneWorld-Budget führt die Ausweitung der App-Abdeckung zu noch größeren Gewinnen. Insgesamt verlagert PhoneWorld den Fokus von der Erstellung eines mobilen Benchmarks nach dem anderen auf die Skalierung des Angebots an Smartphone-Nutzungsumgebungen selbst.

English

A central bottleneck for phone-use agents is that controllable, reproducible environments covering real mobile behavior are hard to build at scale. Existing mobile-agent benchmarks have made important progress on evaluation, but they do not by themselves provide a scalable way to construct many new phone-use environments. We present PhoneWorld, a reusable pipeline that converts real GUI trajectories and screenshots into controllable phone-use environments, executable tasks, automatic verifiers, and training rollouts. Rather than hand-building one mobile benchmark at a time, PhoneWorld uses real trajectories to recover which screens matter, how screens connect, which interactions must change environment state, and which user goals admit automatic verification. From these signals, it builds runnable mock Android apps backed by read-only app content and mutable state, then derives executable tasks, rule-based verifiers, and training rollouts from the same environments. In its current instantiation, PhoneWorld covers 34 apps across 16 domains, spanning common consumer mobile behaviors such as search, browsing, shopping, booking, media, and social interaction. Under a fixed training budget, replacing 10K steps from an auxiliary AndroidWorld corpus in an AndroidWorld-based baseline with broad PhoneWorld supervision improves all four evaluation benchmarks at once, raising HYMobileBench by 17.7 points, AndroidControl by 6.0 points, AndroidWorld by 14.7 points, and PhoneWorld by 52.5 points. We then study two additional scaling questions: increasing the amount of PhoneWorld supervision strongly improves PhoneWorld performance, and under a fixed PhoneWorld budget, expanding app coverage yields even larger gains. Overall, PhoneWorld shifts the focus from building one mobile benchmark at a time to scaling the supply of phone-use environments themselves.