SimuWoB: Simuleren van realistische mobiele apps voor snelle en getrouwe benchmarking van GUI-agenten

Samenvatting

Mobiele GUI-agenten aangedreven door grote taalmodellen hebben zich snel ontwikkeld, wat dringende behoeften creëert aan realistische en uitgebreide evaluatie. Bestaande benchmarks prioriteren reproduceerbaarheid, maar zijn vaak beperkt tot open-source apps of bestandsbewerkingstaken vanwege de moeilijkheid om beloningen te construeren op echte toepassingen, waardoor er een kloof ontstaat tussen benchmarkinstellingen en reëel gebruik. Bovendien richten de meeste benchmarks zich op basisgronding en navigatie, met een beperkte dekking van complexe langetermijninteracties. Om deze beperkingen aan te pakken, introduceren wij SimuWoB, een volledig synthetische benchmark voor mobiele GUI-agenten met 120 uitdagende taken die diverse typen en moeilijkheidsniveaus bestrijken. Wij bouwen een robuust raamwerk voor virtuele omgevingsgeneratie dat hoogwaardige taken en omgevingen synthetiseert en automatisch geldige beloningen voor elke taak levert. Elke omgeving wordt geïmplementeerd als een backend-vrije webpagina die toegankelijk is via URL, wat efficiënte en reproduceerbare evaluatie mogelijk maakt. Wij voeren uitgebreide experimenten uit met verschillende state-of-the-art mobiele GUI-agenten. Het gemiddelde succespercentage is slechts 27,92%, en daalt tot 17,82% bij langetermijntaken, wat aanzienlijke zwakke punten blootlegt in huidige agenten onder complexe scenario's. Vergelijking van evaluatieresultaten met voorbeeldtaken uit de echte wereld toont aan dat agentbeoordelingen op basis van onze synthetische omgeving goed generaliseren. Wij bieden verder diagnostische inzichten over belangrijke capaciteitsdimensies en bespreken implicaties voor de toekomstige ontwikkeling van mobiele GUI-agenten.

English

Mobile GUI agents powered by large language models have progressed rapidly, creating urgent needs for realistic and comprehensive evaluation. Existing benchmarks prioritize reproducibility but are often limited to open-source apps or file-operation tasks for the difficulty of constructing rewards on real applications, leaving a gap between benchmark settings and real-world usage. Moreover, most benchmarks focus on basic grounding and navigation, with limited coverage of complex, long-horizon interactions. To address these limitations, we introduce SimuWoB, a fully synthetic benchmark for mobile GUI agents with 120 challenging tasks spanning diverse types and difficulty levels. We build a robust virtual environment generation framework that synthesizes high-fidelity tasks and environments, and automatically provides valid rewards for each task. Each environment is deployed as a backend-free webpage accessible via URL, enabling efficient and reproducible evaluation. We conduct comprehensive experiments on several state-of-the-art mobile GUI agents. The average success rate is only 27.92%, dropping to 17.82% on long-horizon tasks, which reveals substantial weaknesses in current agents under complex scenarios. Evaluation result comparison with real-world sample tasks demonstrate that agent assessments based on our synthetic environment generalize well. We further provide diagnostic insights across key capability dimensions and discuss implications for future mobile GUI agent development.