A3 : Arène d'agents Android pour des agents GUI mobiles

papers.abstract

Les agents d'IA sont devenus de plus en plus courants ces dernières années, stimulés par des avancées significatives dans le domaine des grands modèles de langage (LLM). Les agents GUI mobiles, une sous-catégorie des agents d'IA, sont conçus pour effectuer des tâches de manière autonome sur des appareils mobiles. Alors que de nombreuses études ont introduit des agents, des ensembles de données et des référentiels pour faire progresser la recherche sur les agents GUI mobiles, de nombreux ensembles de données existants se concentrent sur des évaluations de trames statiques et ne fournissent pas une plateforme complète pour évaluer les performances sur des tâches réelles, en conditions réelles. Pour combler cette lacune, nous présentons Android Agent Arena (A3), une nouvelle plateforme d'évaluation. Contrairement aux systèmes existants en conditions réelles, A3 offre : (1) des tâches significatives et pratiques, telles que la recherche d'informations en ligne en temps réel et des instructions opérationnelles ; (2) un espace d'action plus grand et plus flexible, permettant la compatibilité avec des agents entraînés sur n'importe quel ensemble de données ; et (3) un processus d'évaluation automatisé basé sur des LLM au niveau commercial. A3 comprend 21 applications tierces générales largement utilisées et 201 tâches représentatives de scénarios d'utilisation courants, offrant une base solide pour évaluer les agents GUI mobiles dans des situations réelles et un nouveau processus d'évaluation autonome nécessitant moins de travail humain et d'expertise en codage. Le projet est disponible sur https://yuxiangchai.github.io/Android-Agent-Arena/.

English

AI agents have become increasingly prevalent in recent years, driven by significant advancements in the field of large language models (LLMs). Mobile GUI agents, a subset of AI agents, are designed to autonomously perform tasks on mobile devices. While numerous studies have introduced agents, datasets, and benchmarks to advance mobile GUI agent research, many existing datasets focus on static frame evaluations and fail to provide a comprehensive platform for assessing performance on real-world, in-the-wild tasks. To address this gap, we present Android Agent Arena (A3), a novel evaluation platform. Unlike existing in-the-wild systems, A3 offers: (1) meaningful and practical tasks, such as real-time online information retrieval and operational instructions; (2) a larger, more flexible action space, enabling compatibility with agents trained on any dataset; and (3) automated business-level LLM-based evaluation process. A3 includes 21 widely used general third-party apps and 201 tasks representative of common user scenarios, providing a robust foundation for evaluating mobile GUI agents in real-world situations and a new autonomous evaluation process for less human labor and coding expertise. The project is available at https://yuxiangchai.github.io/Android-Agent-Arena/.

A3 : Arène d'agents Android pour des agents GUI mobiles

A3: Android Agent Arena for Mobile GUI Agents

papers.abstract

Support