MAS-Bench: Унифицированный бенчмарк для гибридных мобильных GUI-агентов с расширенными ярлыками

Аннотация

Для повышения эффективности GUI-агентов на различных платформах, таких как смартфоны и компьютеры, перспективным направлением становится гибридный подход, сочетающий гибкие операции с графическим интерфейсом и эффективные сокращения (например, API, глубокие ссылки). Однако фреймворк для систематического тестирования таких гибридных агентов остается недостаточно изученным. Чтобы сделать первый шаг в устранении этого пробела, мы представляем MAS-Bench — эталонный тест, который впервые оценивает гибридных агентов, использующих сочетание GUI и сокращений, с особым акцентом на мобильную сферу. В дополнение к использованию предопределенных сокращений, MAS-Bench оценивает способность агента автономно генерировать сокращения, обнаруживая и создавая повторно используемые, низкозатратные рабочие процессы. Он включает 139 сложных задач в 11 реальных приложениях, базу знаний из 88 предопределенных сокращений (API, глубокие ссылки, RPA-скрипты) и 7 метрик оценки. Задачи разработаны так, чтобы их можно было решить только с помощью операций с графическим интерфейсом, но их выполнение может быть значительно ускорено за счет интеллектуального внедрения сокращений. Эксперименты показывают, что гибридные агенты достигают значительно более высоких показателей успешности и эффективности по сравнению с агентами, использующими только GUI. Этот результат также демонстрирует эффективность нашего метода оценки способности агента генерировать сокращения. MAS-Bench заполняет критический пробел в оценке, предоставляя фундаментальную платформу для будущих достижений в создании более эффективных и надежных интеллектуальных агентов.

English

To enhance the efficiency of GUI agents on various platforms like smartphones and computers, a hybrid paradigm that combines flexible GUI operations with efficient shortcuts (e.g., API, deep links) is emerging as a promising direction. However, a framework for systematically benchmarking these hybrid agents is still underexplored. To take the first step in bridging this gap, we introduce MAS-Bench, a benchmark that pioneers the evaluation of GUI-shortcut hybrid agents with a specific focus on the mobile domain. Beyond merely using predefined shortcuts, MAS-Bench assesses an agent's capability to autonomously generate shortcuts by discovering and creating reusable, low-cost workflows. It features 139 complex tasks across 11 real-world applications, a knowledge base of 88 predefined shortcuts (APIs, deep-links, RPA scripts), and 7 evaluation metrics. The tasks are designed to be solvable via GUI-only operations, but can be significantly accelerated by intelligently embedding shortcuts. Experiments show that hybrid agents achieve significantly higher success rates and efficiency than their GUI-only counterparts. This result also demonstrates the effectiveness of our method for evaluating an agent's shortcut generation capabilities. MAS-Bench fills a critical evaluation gap, providing a foundational platform for future advancements in creating more efficient and robust intelligent agents.