VenusBench-Mobile: Сложный и ориентированный на пользователя эталонный тест для мобильных GUI-агентов с диагностикой возможностей

Аннотация

Существующие онлайн-бенчмарки для мобильных GUI-агентов остаются в основном ориентированными на отдельные приложения и однородными по задачам, что не отражает разнообразия и нестабильности реального мобильного использования. Для решения этой проблемы мы представляем VenusBench-Mobile — сложный онлайн-бенчмарк для оценки универсальных мобильных GUI-агентов в реалистичных, ориентированных на пользователя условиях. VenusBench-Mobile строит две ключевые основы оценки: определяет, *что оценивать*, через дизайн задач, управляемых пользовательскими интенциями и отражающих реальное использование мобильных устройств, и *как оценивать*, с помощью схемы аннотирования, ориентированной на возможности, для детального анализа поведения агентов. Обширная оценка современных мобильных GUI-агентов выявляет значительный разрыв в производительности по сравнению с предыдущими бенчмарками, что указывает на то, что VenusBench-Mobile предлагает существенно более сложные и реалистичные задачи, а текущие агенты еще далеки от надежного развертывания в реальном мире. Диагностический анализ дополнительно показывает, что большинство неудач обусловлено недостатками в восприятии и памяти, которые в значительной степени скрыты при грубых оценках. Более того, даже самые сильные агенты демонстрируют почти нулевой успех при вариациях окружения, подчеркивая их хрупкость в реалистичных условиях. Основываясь на этих выводах, мы считаем, что VenusBench-Mobile предоставляет важный шаг на пути к надежному развертыванию мобильных GUI-агентов в реальном мире. Код и данные доступны по адресу https://github.com/inclusionAI/UI-Venus/tree/VenusBench-Mobile.

English

Existing online benchmarks for mobile GUI agents remain largely app-centric and task-homogeneous, failing to reflect the diversity and instability of real-world mobile usage. To this end, we introduce VenusBench-Mobile, a challenging online benchmark for evaluating general-purpose mobile GUI agents under realistic, user-centric conditions. VenusBench-Mobile builds two core evaluation pillars: defining what to evaluate via user-intent-driven task design that reflects real mobile usage, and how to evaluate through a capability-oriented annotation scheme for fine-grained agent behavior analysis. Extensive evaluation of state-of-the-art mobile GUI agents reveals large performance gaps relative to prior benchmarks, indicating that VenusBench-Mobile poses substantially more challenging and realistic tasks and that current agents remain far from reliable real-world deployment. Diagnostic analysis further shows that failures are dominated by deficiencies in perception and memory, which are largely obscured by coarse-grained evaluations. Moreover, even the strongest agents exhibit near-zero success under environment variations, highlighting their brittleness in realistic settings. Based on these insights, we believe VenusBench-Mobile provides an important stepping stone toward robust real-world deployment of mobile GUI agents. Code and data are available at https://github.com/inclusionAI/UI-Venus/tree/VenusBench-Mobile.

VenusBench-Mobile: Сложный и ориентированный на пользователя эталонный тест для мобильных GUI-агентов с диагностикой возможностей

VenusBench-Mobile: A Challenging and User-Centric Benchmark for Mobile GUI Agents with Capability Diagnostics

Аннотация

Support