ChatPaper.aiChatPaper

MAS-Bench: Um Benchmark Unificado para Agentes Híbridos de GUI Móvel com Atalhos Aumentados

MAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI Agents

September 8, 2025
Autores: Pengxiang Zhao, Guangyi Liu, Yaozhen Liang, Weiqing He, Zhengxi Lu, Yuehao Huang, Yaxuan Guo, Kexin Zhang, Hao Wang, Liang Liu, Yong Liu
cs.AI

Resumo

Para aumentar a eficiência de agentes de interface gráfica do usuário (GUI) em diversas plataformas, como smartphones e computadores, um paradigma híbrido que combina operações flexíveis de GUI com atalhos eficientes (por exemplo, APIs, deep links) está surgindo como uma direção promissora. No entanto, uma estrutura para avaliar sistematicamente esses agentes híbridos ainda é pouco explorada. Para dar o primeiro passo em direção a preencher essa lacuna, apresentamos o MAS-Bench, um benchmark que pioneiramente avalia agentes híbridos de GUI e atalhos, com foco específico no domínio móvel. Além de apenas usar atalhos predefinidos, o MAS-Bench avalia a capacidade de um agente de gerar atalhos de forma autônoma, descobrindo e criando fluxos de trabalho reutilizáveis e de baixo custo. Ele apresenta 139 tarefas complexas em 11 aplicativos do mundo real, uma base de conhecimento com 88 atalhos predefinidos (APIs, deep links, scripts de RPA) e 7 métricas de avaliação. As tarefas são projetadas para serem resolvidas apenas por operações de GUI, mas podem ser significativamente aceleradas com a incorporação inteligente de atalhos. Experimentos mostram que agentes híbridos alcançam taxas de sucesso e eficiência significativamente maiores do que seus equivalentes que usam apenas GUI. Esse resultado também demonstra a eficácia do nosso método para avaliar a capacidade de geração de atalhos de um agente. O MAS-Bench preenche uma lacuna crítica de avaliação, fornecendo uma plataforma fundamental para avanços futuros na criação de agentes inteligentes mais eficientes e robustos.
English
To enhance the efficiency of GUI agents on various platforms like smartphones and computers, a hybrid paradigm that combines flexible GUI operations with efficient shortcuts (e.g., API, deep links) is emerging as a promising direction. However, a framework for systematically benchmarking these hybrid agents is still underexplored. To take the first step in bridging this gap, we introduce MAS-Bench, a benchmark that pioneers the evaluation of GUI-shortcut hybrid agents with a specific focus on the mobile domain. Beyond merely using predefined shortcuts, MAS-Bench assesses an agent's capability to autonomously generate shortcuts by discovering and creating reusable, low-cost workflows. It features 139 complex tasks across 11 real-world applications, a knowledge base of 88 predefined shortcuts (APIs, deep-links, RPA scripts), and 7 evaluation metrics. The tasks are designed to be solvable via GUI-only operations, but can be significantly accelerated by intelligently embedding shortcuts. Experiments show that hybrid agents achieve significantly higher success rates and efficiency than their GUI-only counterparts. This result also demonstrates the effectiveness of our method for evaluating an agent's shortcut generation capabilities. MAS-Bench fills a critical evaluation gap, providing a foundational platform for future advancements in creating more efficient and robust intelligent agents.
PDF22September 9, 2025