PhoneWorld: Escalonando Ambientes de Agentes de Uso de Telefone

Resumo

Um gargalo central para agentes de uso de telefone é que ambientes controláveis e reproduzíveis que abrangem comportamentos móveis reais são difíceis de construir em escala. Os benchmarks existentes para agentes móveis fizeram progressos importantes na avaliação, mas não oferecem, por si só, uma forma escalável de construir muitos ambientes de uso de telefone. Apresentamos o PhoneWorld, um pipeline reutilizável que converte trajetórias reais de GUI e capturas de tela em ambientes controláveis de uso de telefone, tarefas executáveis, verificadores automáticos e rollouts de treinamento. Em vez de construir manualmente um benchmark móvel por vez, o PhoneWorld utiliza trajetórias reais para recuperar quais telas são relevantes, como as telas se conectam, quais interações devem alterar o estado do ambiente e quais objetivos do usuário admitem verificação automática. A partir desses sinais, ele constrói aplicativos Android simulados executáveis, apoiados por conteúdo de aplicativo somente leitura e estado mutável, e então deriva tarefas executáveis, verificadores baseados em regras e rollouts de treinamento a partir dos mesmos ambientes. Em sua instanciação atual, o PhoneWorld abrange 34 aplicativos em 16 domínios, cobrindo comportamentos móveis comuns do consumidor, como busca, navegação, compras, reservas, mídia e interação social. Sob um orçamento fixo de treinamento, substituir 10 mil passos de um corpus auxiliar do AndroidWorld em uma linha de base baseada no AndroidWorld por supervisão ampla do PhoneWorld melhora todos os quatro benchmarks de avaliação simultaneamente, elevando o HYMobileBench em 17,7 pontos, o AndroidControl em 6,0 pontos, o AndroidWorld em 14,7 pontos e o PhoneWorld em 52,5 pontos. Em seguida, estudamos duas questões adicionais de escalabilidade: aumentar a quantidade de supervisão do PhoneWorld melhora fortemente o desempenho no PhoneWorld e, sob um orçamento fixo do PhoneWorld, expandir a cobertura de aplicativos gera ganhos ainda maiores. No geral, o PhoneWorld desloca o foco de construir um benchmark móvel por vez para escalar a oferta dos próprios ambientes de uso de telefone.

English

A central bottleneck for phone-use agents is that controllable, reproducible environments covering real mobile behavior are hard to build at scale. Existing mobile-agent benchmarks have made important progress on evaluation, but they do not by themselves provide a scalable way to construct many new phone-use environments. We present PhoneWorld, a reusable pipeline that converts real GUI trajectories and screenshots into controllable phone-use environments, executable tasks, automatic verifiers, and training rollouts. Rather than hand-building one mobile benchmark at a time, PhoneWorld uses real trajectories to recover which screens matter, how screens connect, which interactions must change environment state, and which user goals admit automatic verification. From these signals, it builds runnable mock Android apps backed by read-only app content and mutable state, then derives executable tasks, rule-based verifiers, and training rollouts from the same environments. In its current instantiation, PhoneWorld covers 34 apps across 16 domains, spanning common consumer mobile behaviors such as search, browsing, shopping, booking, media, and social interaction. Under a fixed training budget, replacing 10K steps from an auxiliary AndroidWorld corpus in an AndroidWorld-based baseline with broad PhoneWorld supervision improves all four evaluation benchmarks at once, raising HYMobileBench by 17.7 points, AndroidControl by 6.0 points, AndroidWorld by 14.7 points, and PhoneWorld by 52.5 points. We then study two additional scaling questions: increasing the amount of PhoneWorld supervision strongly improves PhoneWorld performance, and under a fixed PhoneWorld budget, expanding app coverage yields even larger gains. Overall, PhoneWorld shifts the focus from building one mobile benchmark at a time to scaling the supply of phone-use environments themselves.