MAS-Bench : Un benchmark unifié pour les agents hybrides d'interface graphique mobile avec raccourcis augmentés
MAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI Agents
September 8, 2025
papers.authors: Pengxiang Zhao, Guangyi Liu, Yaozhen Liang, Weiqing He, Zhengxi Lu, Yuehao Huang, Yaxuan Guo, Kexin Zhang, Hao Wang, Liang Liu, Yong Liu
cs.AI
papers.abstract
Pour améliorer l'efficacité des agents d'interface graphique (GUI) sur diverses plateformes telles que les smartphones et les ordinateurs, un paradigme hybride combinant des opérations flexibles de GUI avec des raccourcis efficaces (par exemple, API, deep links) émerge comme une direction prometteuse. Cependant, un cadre pour évaluer systématiquement ces agents hybrides reste peu exploré. Pour combler cette lacune, nous introduisons MAS-Bench, un benchmark qui innove dans l'évaluation des agents hybrides GUI-raccourcis, en se concentrant spécifiquement sur le domaine mobile. Au-delà de l'utilisation de raccourcis prédéfinis, MAS-Bench évalue la capacité d'un agent à générer de manière autonome des raccourcis en découvrant et en créant des workflows réutilisables et à faible coût. Il propose 139 tâches complexes réparties sur 11 applications réelles, une base de connaissances de 88 raccourcis prédéfinis (API, deep-links, scripts RPA) et 7 métriques d'évaluation. Les tâches sont conçues pour être résolues via des opérations exclusivement basées sur la GUI, mais peuvent être considérablement accélérées par l'intégration intelligente de raccourcis. Les expériences montrent que les agents hybrides atteignent des taux de réussite et une efficacité significativement plus élevés que leurs homologues basés uniquement sur la GUI. Ce résultat démontre également l'efficacité de notre méthode pour évaluer les capacités de génération de raccourcis d'un agent. MAS-Bench comble une lacune critique en matière d'évaluation, offrant une plateforme fondatrice pour les avancées futures dans la création d'agents intelligents plus efficaces et robustes.
English
To enhance the efficiency of GUI agents on various platforms like smartphones
and computers, a hybrid paradigm that combines flexible GUI operations with
efficient shortcuts (e.g., API, deep links) is emerging as a promising
direction. However, a framework for systematically benchmarking these hybrid
agents is still underexplored. To take the first step in bridging this gap, we
introduce MAS-Bench, a benchmark that pioneers the evaluation of GUI-shortcut
hybrid agents with a specific focus on the mobile domain. Beyond merely using
predefined shortcuts, MAS-Bench assesses an agent's capability to autonomously
generate shortcuts by discovering and creating reusable, low-cost workflows. It
features 139 complex tasks across 11 real-world applications, a knowledge base
of 88 predefined shortcuts (APIs, deep-links, RPA scripts), and 7 evaluation
metrics. The tasks are designed to be solvable via GUI-only operations, but can
be significantly accelerated by intelligently embedding shortcuts. Experiments
show that hybrid agents achieve significantly higher success rates and
efficiency than their GUI-only counterparts. This result also demonstrates the
effectiveness of our method for evaluating an agent's shortcut generation
capabilities. MAS-Bench fills a critical evaluation gap, providing a
foundational platform for future advancements in creating more efficient and
robust intelligent agents.