SimuWoB: Simulation realer mobiler Apps für schnelles und getreues Benchmarking von GUI-Agenten

Zusammenfassung

Durch große Sprachmodelle gestützte mobile GUI-Agenten haben rasche Fortschritte gemacht, was dringenden Bedarf an realistischer und umfassender Evaluierung schafft. Vorhandene Benchmarks priorisieren Reproduzierbarkeit, sind jedoch aufgrund der Schwierigkeit, Belohnungen auf realen Anwendungen zu konstruieren, oft auf Open-Source-Apps oder Dateioperationen beschränkt, was eine Lücke zwischen Benchmark-Einstellungen und realer Nutzung hinterlässt. Darüber hinaus konzentrieren sich die meisten Benchmarks auf grundlegende Grounding- und Navigationsaufgaben mit begrenzter Abdeckung komplexer, langfristiger Interaktionen. Um diese Einschränkungen zu adressieren, führen wir SimuWoB ein, einen vollständig synthetischen Benchmark für mobile GUI-Agenten mit 120 anspruchsvollen Aufgaben, die verschiedene Typen und Schwierigkeitsgrade umfassen. Wir entwickeln ein robustes Framework zur Generierung virtueller Umgebungen, das hochgetreue Aufgaben und Umgebungen synthetisiert und automatisch gültige Belohnungen für jede Aufgabe bereitstellt. Jede Umgebung wird als backend-freie Webseite bereitgestellt, die über eine URL zugänglich ist, was eine effiziente und reproduzierbare Evaluierung ermöglicht. Wir führen umfassende Experimente mit mehreren hochmodernen mobilen GUI-Agenten durch. Die durchschnittliche Erfolgsrate beträgt lediglich 27,92 % und sinkt bei langfristigen Aufgaben auf 17,82 %, was erhebliche Schwächen aktueller Agenten in komplexen Szenarien offenbart. Ein Vergleich der Evaluierungsergebnisse mit realen Beispielaufgaben zeigt, dass Agentenbewertungen auf Basis unserer synthetischen Umgebung gut generalisieren. Darüber hinaus liefern wir diagnostische Einblicke über wichtige Fähigkeitsdimensionen hinweg und diskutieren Implikationen für die zukünftige Entwicklung mobiler GUI-Agenten.

English

Mobile GUI agents powered by large language models have progressed rapidly, creating urgent needs for realistic and comprehensive evaluation. Existing benchmarks prioritize reproducibility but are often limited to open-source apps or file-operation tasks for the difficulty of constructing rewards on real applications, leaving a gap between benchmark settings and real-world usage. Moreover, most benchmarks focus on basic grounding and navigation, with limited coverage of complex, long-horizon interactions. To address these limitations, we introduce SimuWoB, a fully synthetic benchmark for mobile GUI agents with 120 challenging tasks spanning diverse types and difficulty levels. We build a robust virtual environment generation framework that synthesizes high-fidelity tasks and environments, and automatically provides valid rewards for each task. Each environment is deployed as a backend-free webpage accessible via URL, enabling efficient and reproducible evaluation. We conduct comprehensive experiments on several state-of-the-art mobile GUI agents. The average success rate is only 27.92%, dropping to 17.82% on long-horizon tasks, which reveals substantial weaknesses in current agents under complex scenarios. Evaluation result comparison with real-world sample tasks demonstrate that agent assessments based on our synthetic environment generalize well. We further provide diagnostic insights across key capability dimensions and discuss implications for future mobile GUI agent development.