MAS-Bench: Un Benchmark Unificato per Agenti Ibridi di Interfaccia Grafica Mobile con Scorciatoie Aumentate
MAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI Agents
September 8, 2025
Autori: Pengxiang Zhao, Guangyi Liu, Yaozhen Liang, Weiqing He, Zhengxi Lu, Yuehao Huang, Yaxuan Guo, Kexin Zhang, Hao Wang, Liang Liu, Yong Liu
cs.AI
Abstract
Per migliorare l'efficienza degli agenti GUI su varie piattaforme come smartphone e computer, un paradigma ibrido che combina operazioni GUI flessibili con scorciatoie efficienti (ad esempio, API, deep link) sta emergendo come una direzione promettente. Tuttavia, un framework per valutare sistematicamente questi agenti ibridi è ancora poco esplorato. Per compiere il primo passo nel colmare questa lacuna, introduciamo MAS-Bench, un benchmark che pionierizza la valutazione degli agenti ibridi GUI-scorciatoie con un focus specifico sul dominio mobile. Oltre a utilizzare semplicemente scorciatoie predefinite, MAS-Bench valuta la capacità di un agente di generare autonomamente scorciatoie scoprendo e creando flussi di lavoro riutilizzabili e a basso costo. Include 139 task complessi su 11 applicazioni del mondo reale, una base di conoscenza di 88 scorciatoie predefinite (API, deep link, script RPA) e 7 metriche di valutazione. I task sono progettati per essere risolvibili tramite operazioni esclusivamente GUI, ma possono essere significativamente accelerati incorporando in modo intelligente delle scorciatoie. Gli esperimenti dimostrano che gli agenti ibridi raggiungono tassi di successo ed efficienza significativamente più elevati rispetto alle loro controparti esclusivamente GUI. Questo risultato dimostra anche l'efficacia del nostro metodo per valutare le capacità di generazione di scorciatoie di un agente. MAS-Bench colma una lacuna critica nella valutazione, fornendo una piattaforma fondamentale per i futuri progressi nella creazione di agenti intelligenti più efficienti e robusti.
English
To enhance the efficiency of GUI agents on various platforms like smartphones
and computers, a hybrid paradigm that combines flexible GUI operations with
efficient shortcuts (e.g., API, deep links) is emerging as a promising
direction. However, a framework for systematically benchmarking these hybrid
agents is still underexplored. To take the first step in bridging this gap, we
introduce MAS-Bench, a benchmark that pioneers the evaluation of GUI-shortcut
hybrid agents with a specific focus on the mobile domain. Beyond merely using
predefined shortcuts, MAS-Bench assesses an agent's capability to autonomously
generate shortcuts by discovering and creating reusable, low-cost workflows. It
features 139 complex tasks across 11 real-world applications, a knowledge base
of 88 predefined shortcuts (APIs, deep-links, RPA scripts), and 7 evaluation
metrics. The tasks are designed to be solvable via GUI-only operations, but can
be significantly accelerated by intelligently embedding shortcuts. Experiments
show that hybrid agents achieve significantly higher success rates and
efficiency than their GUI-only counterparts. This result also demonstrates the
effectiveness of our method for evaluating an agent's shortcut generation
capabilities. MAS-Bench fills a critical evaluation gap, providing a
foundational platform for future advancements in creating more efficient and
robust intelligent agents.