MAS-Bench: Ein einheitlicher Benchmark für hybride mobile GUI-Agenten mit Kurzschlussverstärkung
MAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI Agents
September 8, 2025
papers.authors: Pengxiang Zhao, Guangyi Liu, Yaozhen Liang, Weiqing He, Zhengxi Lu, Yuehao Huang, Yaxuan Guo, Kexin Zhang, Hao Wang, Liang Liu, Yong Liu
cs.AI
papers.abstract
Um die Effizienz von GUI-Agenten auf verschiedenen Plattformen wie Smartphones und Computern zu steigern, entsteht ein hybrides Paradigma, das flexible GUI-Operationen mit effizienten Shortcuts (z. B. APIs, Deep Links) kombiniert, als vielversprechende Richtung. Allerdings ist ein Rahmenwerk zur systematischen Bewertung dieser hybriden Agenten noch unzureichend erforscht. Um einen ersten Schritt zur Schließung dieser Lücke zu machen, stellen wir MAS-Bench vor, ein Benchmark, das die Bewertung von GUI-Shortcut-Hybridagenten mit einem speziellen Fokus auf den mobilen Bereich vorantreibt. Über die bloße Verwendung vordefinierter Shortcuts hinaus bewertet MAS-Bench die Fähigkeit eines Agenten, eigenständig Shortcuts zu generieren, indem er wiederverwendbare, kostengünstige Workflows entdeckt und erstellt. Es umfasst 139 komplexe Aufgaben über 11 reale Anwendungen, eine Wissensbasis mit 88 vordefinierten Shortcuts (APIs, Deep-Links, RPA-Skripte) und 7 Bewertungsmetriken. Die Aufgaben sind so gestaltet, dass sie über reine GUI-Operationen lösbar sind, jedoch durch intelligentes Einbetten von Shortcuts erheblich beschleunigt werden können. Experimente zeigen, dass hybride Agenten deutlich höhere Erfolgsraten und Effizienz erreichen als ihre rein GUI-basierten Gegenstücke. Dieses Ergebnis demonstriert auch die Wirksamkeit unserer Methode zur Bewertung der Shortcut-Generierungsfähigkeiten eines Agenten. MAS-Bench schließt eine kritische Bewertungslücke und bietet eine grundlegende Plattform für zukünftige Fortschritte bei der Entwicklung effizienterer und robusterer intelligenter Agenten.
English
To enhance the efficiency of GUI agents on various platforms like smartphones
and computers, a hybrid paradigm that combines flexible GUI operations with
efficient shortcuts (e.g., API, deep links) is emerging as a promising
direction. However, a framework for systematically benchmarking these hybrid
agents is still underexplored. To take the first step in bridging this gap, we
introduce MAS-Bench, a benchmark that pioneers the evaluation of GUI-shortcut
hybrid agents with a specific focus on the mobile domain. Beyond merely using
predefined shortcuts, MAS-Bench assesses an agent's capability to autonomously
generate shortcuts by discovering and creating reusable, low-cost workflows. It
features 139 complex tasks across 11 real-world applications, a knowledge base
of 88 predefined shortcuts (APIs, deep-links, RPA scripts), and 7 evaluation
metrics. The tasks are designed to be solvable via GUI-only operations, but can
be significantly accelerated by intelligently embedding shortcuts. Experiments
show that hybrid agents achieve significantly higher success rates and
efficiency than their GUI-only counterparts. This result also demonstrates the
effectiveness of our method for evaluating an agent's shortcut generation
capabilities. MAS-Bench fills a critical evaluation gap, providing a
foundational platform for future advancements in creating more efficient and
robust intelligent agents.