SimuWoB: Симуляция реальных мобильных приложений для быстрого и достоверного бенчмаркинга агентов GUI

Аннотация

Агенты мобильного графического интерфейса, основанные на больших языковых моделях, быстро прогрессируют, что создает острую необходимость в реалистичной и всесторонней оценке. Существующие бенчмарки отдают приоритет воспроизводимости, но часто ограничиваются приложениями с открытым исходным кодом или задачами по работе с файлами из-за сложности построения вознаграждений в реальных приложениях, оставляя разрыв между условиями бенчмарков и реальным использованием. Более того, большинство бенчмарков сосредоточены на базовом заземлении и навигации, с ограниченным охватом сложных долгосрочных взаимодействий. Чтобы устранить эти ограничения, мы представляем SimuWoB — полностью синтетический бенчмарк для агентов мобильного графического интерфейса, содержащий 120 сложных задач различных типов и уровней сложности. Мы создаем надежную среду генерации виртуальной среды, которая синтезирует задачи и среды с высокой точностью, а также автоматически предоставляет действительные вознаграждения для каждой задачи. Каждая среда развертывается как веб-страница без бэкенда, доступная по URL-адресу, что обеспечивает эффективную и воспроизводимую оценку. Мы проводим всесторонние эксперименты на нескольких передовых агентах мобильного графического интерфейса. Средний уровень успешности составляет всего 27,92%, снижаясь до 17,82% на долгосрочных задачах, что выявляет существенные слабости современных агентов в сложных сценариях. Сравнение результатов оценки с образцами реальных задач показывает, что оценки агентов, основанные на нашей синтетической среде, хорошо обобщаются. Кроме того, мы предоставляем диагностические идеи по ключевым размерностям возможностей и обсуждаем последствия для будущей разработки агентов мобильного графического интерфейса.

English

Mobile GUI agents powered by large language models have progressed rapidly, creating urgent needs for realistic and comprehensive evaluation. Existing benchmarks prioritize reproducibility but are often limited to open-source apps or file-operation tasks for the difficulty of constructing rewards on real applications, leaving a gap between benchmark settings and real-world usage. Moreover, most benchmarks focus on basic grounding and navigation, with limited coverage of complex, long-horizon interactions. To address these limitations, we introduce SimuWoB, a fully synthetic benchmark for mobile GUI agents with 120 challenging tasks spanning diverse types and difficulty levels. We build a robust virtual environment generation framework that synthesizes high-fidelity tasks and environments, and automatically provides valid rewards for each task. Each environment is deployed as a backend-free webpage accessible via URL, enabling efficient and reproducible evaluation. We conduct comprehensive experiments on several state-of-the-art mobile GUI agents. The average success rate is only 27.92%, dropping to 17.82% on long-horizon tasks, which reveals substantial weaknesses in current agents under complex scenarios. Evaluation result comparison with real-world sample tasks demonstrate that agent assessments based on our synthetic environment generalize well. We further provide diagnostic insights across key capability dimensions and discuss implications for future mobile GUI agent development.