A3 : Arène d'agents Android pour des agents GUI mobiles
A3: Android Agent Arena for Mobile GUI Agents
January 2, 2025
Auteurs: Yuxiang Chai, Hanhao Li, Jiayu Zhang, Liang Liu, Guozhi Wang, Shuai Ren, Siyuan Huang, Hongsheng Li
cs.AI
Résumé
Les agents d'IA sont devenus de plus en plus courants ces dernières années, stimulés par des avancées significatives dans le domaine des grands modèles de langage (LLM). Les agents GUI mobiles, une sous-catégorie des agents d'IA, sont conçus pour effectuer des tâches de manière autonome sur des appareils mobiles. Alors que de nombreuses études ont introduit des agents, des ensembles de données et des référentiels pour faire progresser la recherche sur les agents GUI mobiles, de nombreux ensembles de données existants se concentrent sur des évaluations de trames statiques et ne fournissent pas une plateforme complète pour évaluer les performances sur des tâches réelles, en conditions réelles. Pour combler cette lacune, nous présentons Android Agent Arena (A3), une nouvelle plateforme d'évaluation. Contrairement aux systèmes existants en conditions réelles, A3 offre : (1) des tâches significatives et pratiques, telles que la recherche d'informations en ligne en temps réel et des instructions opérationnelles ; (2) un espace d'action plus grand et plus flexible, permettant la compatibilité avec des agents entraînés sur n'importe quel ensemble de données ; et (3) un processus d'évaluation automatisé basé sur des LLM au niveau commercial. A3 comprend 21 applications tierces générales largement utilisées et 201 tâches représentatives de scénarios d'utilisation courants, offrant une base solide pour évaluer les agents GUI mobiles dans des situations réelles et un nouveau processus d'évaluation autonome nécessitant moins de travail humain et d'expertise en codage. Le projet est disponible sur https://yuxiangchai.github.io/Android-Agent-Arena/.
English
AI agents have become increasingly prevalent in recent years, driven by
significant advancements in the field of large language models (LLMs). Mobile
GUI agents, a subset of AI agents, are designed to autonomously perform tasks
on mobile devices. While numerous studies have introduced agents, datasets, and
benchmarks to advance mobile GUI agent research, many existing datasets focus
on static frame evaluations and fail to provide a comprehensive platform for
assessing performance on real-world, in-the-wild tasks. To address this gap, we
present Android Agent Arena (A3), a novel evaluation platform. Unlike existing
in-the-wild systems, A3 offers: (1) meaningful and practical tasks, such as
real-time online information retrieval and operational instructions; (2) a
larger, more flexible action space, enabling compatibility with agents trained
on any dataset; and (3) automated business-level LLM-based evaluation process.
A3 includes 21 widely used general third-party apps and 201 tasks
representative of common user scenarios, providing a robust foundation for
evaluating mobile GUI agents in real-world situations and a new autonomous
evaluation process for less human labor and coding expertise. The project is
available at https://yuxiangchai.github.io/Android-Agent-Arena/.Summary
AI-Generated Summary