MAS-Bench: Un punto de referencia unificado para agentes híbridos de GUI móvil aumentados con atajos
MAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI Agents
September 8, 2025
Autores: Pengxiang Zhao, Guangyi Liu, Yaozhen Liang, Weiqing He, Zhengxi Lu, Yuehao Huang, Yaxuan Guo, Kexin Zhang, Hao Wang, Liang Liu, Yong Liu
cs.AI
Resumen
Para mejorar la eficiencia de los agentes de interfaz gráfica de usuario (GUI) en diversas plataformas como teléfonos inteligentes y computadoras, un paradigma híbrido que combina operaciones flexibles de GUI con accesos directos eficientes (por ejemplo, API, enlaces profundos) está surgiendo como una dirección prometedora. Sin embargo, un marco para evaluar sistemáticamente estos agentes híbridos aún está poco explorado. Para dar el primer paso en cerrar esta brecha, presentamos MAS-Bench, un punto de referencia que pionero en la evaluación de agentes híbridos de GUI y accesos directos, con un enfoque específico en el dominio móvil. Más allá de simplemente utilizar accesos directos predefinidos, MAS-Bench evalúa la capacidad de un agente para generar accesos directos de manera autónoma, descubriendo y creando flujos de trabajo reutilizables y de bajo costo. Incluye 139 tareas complejas en 11 aplicaciones del mundo real, una base de conocimiento de 88 accesos directos predefinidos (API, enlaces profundos, scripts de RPA) y 7 métricas de evaluación. Las tareas están diseñadas para ser resolubles mediante operaciones exclusivas de GUI, pero pueden acelerarse significativamente mediante la integración inteligente de accesos directos. Los experimentos muestran que los agentes híbridos logran tasas de éxito y eficiencia significativamente más altas que sus contrapartes exclusivas de GUI. Este resultado también demuestra la efectividad de nuestro método para evaluar las capacidades de generación de accesos directos de un agente. MAS-Bench llena un vacío crítico en la evaluación, proporcionando una plataforma fundamental para futuros avances en la creación de agentes inteligentes más eficientes y robustos.
English
To enhance the efficiency of GUI agents on various platforms like smartphones
and computers, a hybrid paradigm that combines flexible GUI operations with
efficient shortcuts (e.g., API, deep links) is emerging as a promising
direction. However, a framework for systematically benchmarking these hybrid
agents is still underexplored. To take the first step in bridging this gap, we
introduce MAS-Bench, a benchmark that pioneers the evaluation of GUI-shortcut
hybrid agents with a specific focus on the mobile domain. Beyond merely using
predefined shortcuts, MAS-Bench assesses an agent's capability to autonomously
generate shortcuts by discovering and creating reusable, low-cost workflows. It
features 139 complex tasks across 11 real-world applications, a knowledge base
of 88 predefined shortcuts (APIs, deep-links, RPA scripts), and 7 evaluation
metrics. The tasks are designed to be solvable via GUI-only operations, but can
be significantly accelerated by intelligently embedding shortcuts. Experiments
show that hybrid agents achieve significantly higher success rates and
efficiency than their GUI-only counterparts. This result also demonstrates the
effectiveness of our method for evaluating an agent's shortcut generation
capabilities. MAS-Bench fills a critical evaluation gap, providing a
foundational platform for future advancements in creating more efficient and
robust intelligent agents.