SimuWoB: Simulación de aplicaciones móviles del mundo real para una evaluación comparativa rápida y fiel de agentes GUI

Resumen

Los agentes móviles de interfaz gráfica de usuario impulsados por modelos de lenguaje extenso han avanzado rápidamente, generando necesidades urgentes de evaluación realista y exhaustiva. Los benchmarks existentes priorizan la reproducibilidad, pero suelen limitarse a aplicaciones de código abierto o tareas de manipulación de archivos debido a la dificultad de construir recompensas en aplicaciones reales, lo que deja una brecha entre los entornos de evaluación y el uso en el mundo real. Además, la mayoría de los benchmarks se centran en anclaje y navegación básicos, con una cobertura limitada de interacciones complejas y de largo horizonte. Para abordar estas limitaciones, presentamos SimuWoB, un benchmark completamente sintético para agentes móviles de interfaz gráfica de usuario con 120 tareas desafiantes que abarcan diversos tipos y niveles de dificultad. Construimos un marco robusto de generación de entornos virtuales que sintetiza tareas y entornos de alta fidelidad, y proporciona automáticamente recompensas válidas para cada tarea. Cada entorno se despliega como una página web accesible mediante URL que no requiere backend, lo que permite una evaluación eficiente y reproducible. Realizamos experimentos exhaustivos con varios agentes móviles de interfaz gráfica de usuario de última generación. La tasa de éxito promedio es solo del 27,92 %, y desciende al 17,82 % en tareas de largo horizonte, lo que revela debilidades sustanciales en los agentes actuales bajo escenarios complejos. La comparación de los resultados de evaluación con tareas de muestra del mundo real demuestra que las evaluaciones de agentes basadas en nuestro entorno sintético generalizan bien. Además, proporcionamos ideas diagnósticas en dimensiones clave de capacidad y discutimos implicaciones para el desarrollo futuro de agentes móviles de interfaz gráfica de usuario.

English

Mobile GUI agents powered by large language models have progressed rapidly, creating urgent needs for realistic and comprehensive evaluation. Existing benchmarks prioritize reproducibility but are often limited to open-source apps or file-operation tasks for the difficulty of constructing rewards on real applications, leaving a gap between benchmark settings and real-world usage. Moreover, most benchmarks focus on basic grounding and navigation, with limited coverage of complex, long-horizon interactions. To address these limitations, we introduce SimuWoB, a fully synthetic benchmark for mobile GUI agents with 120 challenging tasks spanning diverse types and difficulty levels. We build a robust virtual environment generation framework that synthesizes high-fidelity tasks and environments, and automatically provides valid rewards for each task. Each environment is deployed as a backend-free webpage accessible via URL, enabling efficient and reproducible evaluation. We conduct comprehensive experiments on several state-of-the-art mobile GUI agents. The average success rate is only 27.92%, dropping to 17.82% on long-horizon tasks, which reveals substantial weaknesses in current agents under complex scenarios. Evaluation result comparison with real-world sample tasks demonstrate that agent assessments based on our synthetic environment generalize well. We further provide diagnostic insights across key capability dimensions and discuss implications for future mobile GUI agent development.