SimuWoB : Simuler des applications mobiles réelles pour une évaluation comparative rapide et fidèle d'agents GUI

Résumé

Les agents GUI mobiles alimentés par de grands modèles de langage ont connu des progrès rapides, créant un besoin urgent d'évaluations réalistes et complètes. Les bancs d'essai existants privilégient la reproductibilité mais sont souvent limités à des applications open source ou à des tâches de manipulation de fichiers en raison de la difficulté à construire des récompenses sur des applications réelles, creusant ainsi un fossé entre les paramètres d'évaluation et l'utilisation réelle. De plus, la plupart des bancs d'essai se concentrent sur l'ancrage de base et la navigation, avec une couverture limitée des interactions complexes et à long horizon. Pour remédier à ces limitations, nous présentons SimuWoB, un banc d'essai entièrement synthétique pour les agents GUI mobiles, comprenant 120 tâches difficiles couvrant divers types et niveaux de difficulté. Nous construisons un cadre robuste de génération d'environnements virtuels qui synthétise des tâches et environnements de haute fidélité, et fournit automatiquement des récompenses valides pour chaque tâche. Chaque environnement est déployé sous forme de page web sans backend, accessible via une URL, permettant une évaluation efficace et reproductible. Nous menons des expériences approfondies sur plusieurs agents GUI mobiles de pointe. Le taux de succès moyen n'est que de 27,92 %, tombant à 17,82 % pour les tâches à long horizon, ce qui révèle des faiblesses substantielles des agents actuels dans des scénarios complexes. Une comparaison des résultats d'évaluation avec des tâches échantillons du monde réel montre que les évaluations des agents basées sur notre environnement synthétique se généralisent bien. Nous fournissons également des informations diagnostiques sur les dimensions clés des capacités et discutons des implications pour le développement futur des agents GUI mobiles.

English

Mobile GUI agents powered by large language models have progressed rapidly, creating urgent needs for realistic and comprehensive evaluation. Existing benchmarks prioritize reproducibility but are often limited to open-source apps or file-operation tasks for the difficulty of constructing rewards on real applications, leaving a gap between benchmark settings and real-world usage. Moreover, most benchmarks focus on basic grounding and navigation, with limited coverage of complex, long-horizon interactions. To address these limitations, we introduce SimuWoB, a fully synthetic benchmark for mobile GUI agents with 120 challenging tasks spanning diverse types and difficulty levels. We build a robust virtual environment generation framework that synthesizes high-fidelity tasks and environments, and automatically provides valid rewards for each task. Each environment is deployed as a backend-free webpage accessible via URL, enabling efficient and reproducible evaluation. We conduct comprehensive experiments on several state-of-the-art mobile GUI agents. The average success rate is only 27.92%, dropping to 17.82% on long-horizon tasks, which reveals substantial weaknesses in current agents under complex scenarios. Evaluation result comparison with real-world sample tasks demonstrate that agent assessments based on our synthetic environment generalize well. We further provide diagnostic insights across key capability dimensions and discuss implications for future mobile GUI agent development.