PhoneWorld: Escalando Entornos de Agentes de Uso Telefónico

Resumen

Un cuello de botella central para los agentes de uso de teléfonos es que los entornos controlables y reproducibles que abarquen comportamientos móviles reales son difíciles de construir a escala. Los puntos de referencia existentes para agentes móviles han logrado avances importantes en la evaluación, pero no proporcionan por sí mismos una forma escalable de construir muchos entornos nuevos de uso de teléfonos. Presentamos PhoneWorld, una canalización reutilizable que convierte trayectorias reales de GUI y capturas de pantalla en entornos controlables de uso de teléfonos, tareas ejecutables, verificadores automáticos y despliegues de entrenamiento. En lugar de construir un punto de referencia móvil manualmente a la vez, PhoneWorld utiliza trayectorias reales para recuperar qué pantallas son relevantes, cómo se conectan las pantallas, qué interacciones deben cambiar el estado del entorno y qué objetivos del usuario admiten verificación automática. A partir de estas señales, construye aplicaciones Android simuladas ejecutables respaldadas por contenido de aplicación de solo lectura y estado mutable, y luego deriva tareas ejecutables, verificadores basados en reglas y despliegues de entrenamiento a partir de los mismos entornos. En su instanciación actual, PhoneWorld cubre 34 aplicaciones en 16 dominios, abarcando comportamientos móviles comunes de consumo como búsqueda, navegación, compras, reservas, medios e interacción social. Bajo un presupuesto de entrenamiento fijo, reemplazar 10 000 pasos de un corpus auxiliar de AndroidWorld en una línea base basada en AndroidWorld con supervisión amplia de PhoneWorld mejora los cuatro puntos de referencia de evaluación a la vez, elevando HYMobileBench en 17,7 puntos, AndroidControl en 6,0 puntos, AndroidWorld en 14,7 puntos y PhoneWorld en 52,5 puntos. Luego estudiamos dos preguntas adicionales de escalado: aumentar la cantidad de supervisión de PhoneWorld mejora fuertemente el rendimiento en PhoneWorld, y bajo un presupuesto fijo de PhoneWorld, expandir la cobertura de aplicaciones produce ganancias aún mayores. En general, PhoneWorld desplaza el enfoque de construir un punto de referencia móvil a la vez hacia escalar la oferta de entornos de uso de teléfonos en sí mismos.

English

A central bottleneck for phone-use agents is that controllable, reproducible environments covering real mobile behavior are hard to build at scale. Existing mobile-agent benchmarks have made important progress on evaluation, but they do not by themselves provide a scalable way to construct many new phone-use environments. We present PhoneWorld, a reusable pipeline that converts real GUI trajectories and screenshots into controllable phone-use environments, executable tasks, automatic verifiers, and training rollouts. Rather than hand-building one mobile benchmark at a time, PhoneWorld uses real trajectories to recover which screens matter, how screens connect, which interactions must change environment state, and which user goals admit automatic verification. From these signals, it builds runnable mock Android apps backed by read-only app content and mutable state, then derives executable tasks, rule-based verifiers, and training rollouts from the same environments. In its current instantiation, PhoneWorld covers 34 apps across 16 domains, spanning common consumer mobile behaviors such as search, browsing, shopping, booking, media, and social interaction. Under a fixed training budget, replacing 10K steps from an auxiliary AndroidWorld corpus in an AndroidWorld-based baseline with broad PhoneWorld supervision improves all four evaluation benchmarks at once, raising HYMobileBench by 17.7 points, AndroidControl by 6.0 points, AndroidWorld by 14.7 points, and PhoneWorld by 52.5 points. We then study two additional scaling questions: increasing the amount of PhoneWorld supervision strongly improves PhoneWorld performance, and under a fixed PhoneWorld budget, expanding app coverage yields even larger gains. Overall, PhoneWorld shifts the focus from building one mobile benchmark at a time to scaling the supply of phone-use environments themselves.