MAS-Bench: Унифицированный бенчмарк для гибридных мобильных GUI-агентов с расширенными ярлыками
MAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI Agents
September 8, 2025
Авторы: Pengxiang Zhao, Guangyi Liu, Yaozhen Liang, Weiqing He, Zhengxi Lu, Yuehao Huang, Yaxuan Guo, Kexin Zhang, Hao Wang, Liang Liu, Yong Liu
cs.AI
Аннотация
Для повышения эффективности GUI-агентов на различных платформах, таких как смартфоны и компьютеры, перспективным направлением становится гибридный подход, сочетающий гибкие операции с графическим интерфейсом и эффективные сокращения (например, API, глубокие ссылки). Однако фреймворк для систематического тестирования таких гибридных агентов остается недостаточно изученным. Чтобы сделать первый шаг в устранении этого пробела, мы представляем MAS-Bench — эталонный тест, который впервые оценивает гибридных агентов, использующих сочетание GUI и сокращений, с особым акцентом на мобильную сферу. В дополнение к использованию предопределенных сокращений, MAS-Bench оценивает способность агента автономно генерировать сокращения, обнаруживая и создавая повторно используемые, низкозатратные рабочие процессы. Он включает 139 сложных задач в 11 реальных приложениях, базу знаний из 88 предопределенных сокращений (API, глубокие ссылки, RPA-скрипты) и 7 метрик оценки. Задачи разработаны так, чтобы их можно было решить только с помощью операций с графическим интерфейсом, но их выполнение может быть значительно ускорено за счет интеллектуального внедрения сокращений. Эксперименты показывают, что гибридные агенты достигают значительно более высоких показателей успешности и эффективности по сравнению с агентами, использующими только GUI. Этот результат также демонстрирует эффективность нашего метода оценки способности агента генерировать сокращения. MAS-Bench заполняет критический пробел в оценке, предоставляя фундаментальную платформу для будущих достижений в создании более эффективных и надежных интеллектуальных агентов.
English
To enhance the efficiency of GUI agents on various platforms like smartphones
and computers, a hybrid paradigm that combines flexible GUI operations with
efficient shortcuts (e.g., API, deep links) is emerging as a promising
direction. However, a framework for systematically benchmarking these hybrid
agents is still underexplored. To take the first step in bridging this gap, we
introduce MAS-Bench, a benchmark that pioneers the evaluation of GUI-shortcut
hybrid agents with a specific focus on the mobile domain. Beyond merely using
predefined shortcuts, MAS-Bench assesses an agent's capability to autonomously
generate shortcuts by discovering and creating reusable, low-cost workflows. It
features 139 complex tasks across 11 real-world applications, a knowledge base
of 88 predefined shortcuts (APIs, deep-links, RPA scripts), and 7 evaluation
metrics. The tasks are designed to be solvable via GUI-only operations, but can
be significantly accelerated by intelligently embedding shortcuts. Experiments
show that hybrid agents achieve significantly higher success rates and
efficiency than their GUI-only counterparts. This result also demonstrates the
effectiveness of our method for evaluating an agent's shortcut generation
capabilities. MAS-Bench fills a critical evaluation gap, providing a
foundational platform for future advancements in creating more efficient and
robust intelligent agents.