OpenMobile: Construcción de agentes móviles abiertos con síntesis de tareas y trayectorias

Resumen

Los agentes móviles impulsados por modelos de visión y lenguaje han demostrado capacidades impresionantes para automatizar tareas móviles, con modelos líderes recientes logrando un salto significativo en el rendimiento, por ejemplo, casi un 70% de éxito en AndroidWorld. Sin embargo, estos sistemas mantienen cerrados sus datos de entrenamiento y son opacos respecto a sus recetas de síntesis de tareas y trayectorias. Presentamos OpenMobile, un marco de código abierto que sintetiza instrucciones de tareas y trayectorias de agentes de alta calidad, con dos componentes clave: (1) El primero es un pipeline escalable de síntesis de tareas que construye una memoria global del entorno a partir de la exploración, y luego la aprovecha para generar instrucciones diversas y fundamentadas. Y (2) una estrategia de conmutación de políticas para el despliegue de trayectorias. Al alternar entre modelos aprendiz y experto, captura datos esenciales de recuperación de errores que a menudo faltan en el aprendizaje por imitación estándar. Los agentes entrenados con nuestros datos logran resultados competitivos en tres benchmarks dinámicos de agentes móviles: notablemente, nuestros Qwen2.5-VL y Qwen3-VL ajustados alcanzan un 51.7% y 64.7% en AndroidWorld, superando ampliamente los enfoques existentes de datos abiertos. Además, realizamos análisis transparentes sobre la superposición entre nuestras instrucciones sintéticas y los conjuntos de prueba de los benchmarks, y verificamos que las ganancias de rendimiento provienen de una amplia cobertura funcional y no de un sobreajuste a los benchmarks. Publicamos datos y código en https://njucckevin.github.io/openmobile/ para salvar la brecha de datos y facilitar una investigación más amplia sobre agentes móviles.

English

Mobile agents powered by vision-language models have demonstrated impressive capabilities in automating mobile tasks, with recent leading models achieving a marked performance leap, e.g., nearly 70% success on AndroidWorld. However, these systems keep their training data closed and remain opaque about their task and trajectory synthesis recipes. We present OpenMobile, an open-source framework that synthesizes high-quality task instructions and agent trajectories, with two key components: (1) The first is a scalable task synthesis pipeline that constructs a global environment memory from exploration, then leverages it to generate diverse and grounded instructions. and (2) a policy-switching strategy for trajectory rollout. By alternating between learner and expert models, it captures essential error-recovery data often missing in standard imitation learning. Agents trained on our data achieve competitive results across three dynamic mobile agent benchmarks: notably, our fine-tuned Qwen2.5-VL and Qwen3-VL reach 51.7% and 64.7% on AndroidWorld, far surpassing existing open-data approaches. Furthermore, we conduct transparent analyses on the overlap between our synthetic instructions and benchmark test sets, and verify that performance gains stem from broad functionality coverage rather than benchmark overfitting. We release data and code at https://njucckevin.github.io/openmobile/ to bridge the data gap and facilitate broader mobile agent research.

OpenMobile: Construcción de agentes móviles abiertos con síntesis de tareas y trayectorias

OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis

Resumen

Support