PhoneWorld: Schaalvergroting van agentomgevingen voor telefoongebruik

Samenvatting

Een centraal knelpunt voor telefoongebruikende agenten is dat beheersbare, reproduceerbare omgevingen die echt mobiel gedrag omvatten, moeilijk op schaal te bouwen zijn. Bestaande benchmarks voor mobiele agenten hebben belangrijke vooruitgang geboekt op het gebied van evaluatie, maar bieden op zichzelf geen schaalbare manier om veel nieuwe telefoongebruikomgevingen te construeren. We presenteren PhoneWorld, een herbruikbare pijplijn die echte GUI-trajecten en schermafbeeldingen omzet in beheersbare telefoongebruikomgevingen, uitvoerbare taken, automatische verificatoren en trainingsrollouts. In plaats van handmatig één mobiele benchmark tegelijk te bouwen, gebruikt PhoneWorld echte trajecten om te herstellen welke schermen relevant zijn, hoe schermen verbonden zijn, welke interacties de omgevingstoestand moeten veranderen en welke gebruikersdoelen automatische verificatie toelaten. Op basis van deze signalen bouwt het uitvoerbare mock-Android-apps, ondersteund door alleen-lezen app-inhoud en veranderlijke toestand, en leidt vervolgens uitvoerbare taken, regelgebaseerde verificatoren en trainingsrollouts af uit dezelfde omgevingen. In zijn huidige vorm bestrijkt PhoneWorld 34 apps in 16 domeinen, variërend van veelvoorkomend consumentengedrag op mobiel, zoals zoeken, browsen, winkelen, boeken, media en sociale interactie. Bij een vast trainingsbudget verbetert het vervangen van 10.000 stappen uit een aanvullend AndroidWorld-corpus in een op AndroidWorld gebaseerde baseline met brede PhoneWorld-supervisie alle vier de evaluatiebenchmarks tegelijk, waarbij HYMobileBench met 17,7 punten stijgt, AndroidControl met 6,0 punten, AndroidWorld met 14,7 punten en PhoneWorld met 52,5 punten. Vervolgens bestuderen we twee extra schalingsvragen: het verhogen van de hoeveelheid PhoneWorld-supervisie verbetert de PhoneWorld-prestaties sterk, en bij een vast PhoneWorld-budget levert het uitbreiden van de app-dekking nog grotere winsten op. Al met al verschuift PhoneWorld de focus van het bouwen van één mobiele benchmark tegelijk naar het opschalen van het aanbod van telefoongebruikomgevingen zelf.

English

A central bottleneck for phone-use agents is that controllable, reproducible environments covering real mobile behavior are hard to build at scale. Existing mobile-agent benchmarks have made important progress on evaluation, but they do not by themselves provide a scalable way to construct many new phone-use environments. We present PhoneWorld, a reusable pipeline that converts real GUI trajectories and screenshots into controllable phone-use environments, executable tasks, automatic verifiers, and training rollouts. Rather than hand-building one mobile benchmark at a time, PhoneWorld uses real trajectories to recover which screens matter, how screens connect, which interactions must change environment state, and which user goals admit automatic verification. From these signals, it builds runnable mock Android apps backed by read-only app content and mutable state, then derives executable tasks, rule-based verifiers, and training rollouts from the same environments. In its current instantiation, PhoneWorld covers 34 apps across 16 domains, spanning common consumer mobile behaviors such as search, browsing, shopping, booking, media, and social interaction. Under a fixed training budget, replacing 10K steps from an auxiliary AndroidWorld corpus in an AndroidWorld-based baseline with broad PhoneWorld supervision improves all four evaluation benchmarks at once, raising HYMobileBench by 17.7 points, AndroidControl by 6.0 points, AndroidWorld by 14.7 points, and PhoneWorld by 52.5 points. We then study two additional scaling questions: increasing the amount of PhoneWorld supervision strongly improves PhoneWorld performance, and under a fixed PhoneWorld budget, expanding app coverage yields even larger gains. Overall, PhoneWorld shifts the focus from building one mobile benchmark at a time to scaling the supply of phone-use environments themselves.