MAS-Bench: Een Uniforme Benchmark voor Hybride Mobiele GUI-Agenten met Snelkoppelingen
MAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI Agents
September 8, 2025
Auteurs: Pengxiang Zhao, Guangyi Liu, Yaozhen Liang, Weiqing He, Zhengxi Lu, Yuehao Huang, Yaxuan Guo, Kexin Zhang, Hao Wang, Liang Liu, Yong Liu
cs.AI
Samenvatting
Om de efficiëntie van GUI-agents op verschillende platforms zoals smartphones en computers te verbeteren, ontstaat een hybride paradigma dat flexibele GUI-bewerkingen combineert met efficiënte snelkoppelingen (bijv. API's, deep links) als een veelbelovende richting. Een raamwerk voor het systematisch benchmarken van deze hybride agents is echter nog onderbelicht. Om de eerste stap te zetten in het overbruggen van deze kloof, introduceren we MAS-Bench, een benchmark die baanbrekend werk verricht in de evaluatie van GUI-snelkoppelingshybride agents, met een specifieke focus op het mobiele domein. Naast het gebruik van vooraf gedefinieerde snelkoppelingen, beoordeelt MAS-Bench de capaciteit van een agent om autonoom snelkoppelingen te genereren door herbruikbare, kostenefficiënte workflows te ontdekken en te creëren. Het omvat 139 complexe taken over 11 real-world applicaties, een kennisbank van 88 vooraf gedefinieerde snelkoppelingen (API's, deep-links, RPA-scripts) en 7 evaluatiemetrics. De taken zijn ontworpen om oplosbaar te zijn via alleen GUI-bewerkingen, maar kunnen aanzienlijk worden versneld door slim snelkoppelingen in te bedden. Experimenten tonen aan dat hybride agents aanzienlijk hogere slagingspercentages en efficiëntie behalen dan hun GUI-only tegenhangers. Dit resultaat toont ook de effectiviteit van onze methode voor het evalueren van de snelkoppelingsgeneratiecapaciteiten van een agent. MAS-Bench vult een kritieke evaluatiekloof en biedt een fundamenteel platform voor toekomstige vooruitgang in het creëren van efficiëntere en robuustere intelligente agents.
English
To enhance the efficiency of GUI agents on various platforms like smartphones
and computers, a hybrid paradigm that combines flexible GUI operations with
efficient shortcuts (e.g., API, deep links) is emerging as a promising
direction. However, a framework for systematically benchmarking these hybrid
agents is still underexplored. To take the first step in bridging this gap, we
introduce MAS-Bench, a benchmark that pioneers the evaluation of GUI-shortcut
hybrid agents with a specific focus on the mobile domain. Beyond merely using
predefined shortcuts, MAS-Bench assesses an agent's capability to autonomously
generate shortcuts by discovering and creating reusable, low-cost workflows. It
features 139 complex tasks across 11 real-world applications, a knowledge base
of 88 predefined shortcuts (APIs, deep-links, RPA scripts), and 7 evaluation
metrics. The tasks are designed to be solvable via GUI-only operations, but can
be significantly accelerated by intelligently embedding shortcuts. Experiments
show that hybrid agents achieve significantly higher success rates and
efficiency than their GUI-only counterparts. This result also demonstrates the
effectiveness of our method for evaluating an agent's shortcut generation
capabilities. MAS-Bench fills a critical evaluation gap, providing a
foundational platform for future advancements in creating more efficient and
robust intelligent agents.