A3: Android Agent Arena voor Mobiele GUI-agenten
A3: Android Agent Arena for Mobile GUI Agents
January 2, 2025
Auteurs: Yuxiang Chai, Hanhao Li, Jiayu Zhang, Liang Liu, Guozhi Wang, Shuai Ren, Siyuan Huang, Hongsheng Li
cs.AI
Samenvatting
AI-agenten zijn de afgelopen jaren steeds gebruikelijker geworden, gedreven door significante vooruitgang in het veld van grote taalmodellen (LLM's). Mobiele GUI-agenten, een subset van AI-agenten, zijn ontworpen om autonoom taken uit te voeren op mobiele apparaten. Hoewel talrijke studies agenten, datasets en benchmarks hebben geïntroduceerd om onderzoek naar mobiele GUI-agenten te bevorderen, richten veel bestaande datasets zich op statische frame-evaluaties en bieden ze geen uitgebreid platform voor het beoordelen van prestaties op taken in de echte wereld. Om deze lacune aan te pakken, presenteren we Android Agent Arena (A3), een nieuw evaluatieplatform. In tegenstelling tot bestaande systemen in de echte wereld, biedt A3: (1) betekenisvolle en praktische taken, zoals real-time online informatie ophalen en operationele instructies; (2) een grotere, meer flexibele actieruimte, waardoor compatibiliteit met agenten getraind op elke dataset mogelijk is; en (3) een geautomatiseerd bedrijfsniveau LLM-gebaseerd evaluatieproces. A3 omvat 21 veelgebruikte algemene apps van derden en 201 taken die representatief zijn voor veelvoorkomende gebruikersscenario's, waardoor een solide basis wordt geboden voor het evalueren van mobiele GUI-agenten in situaties in de echte wereld en een nieuw autonoom evaluatieproces voor minder menselijke arbeid en programmeerexpertise. Het project is beschikbaar op https://yuxiangchai.github.io/Android-Agent-Arena/.
English
AI agents have become increasingly prevalent in recent years, driven by
significant advancements in the field of large language models (LLMs). Mobile
GUI agents, a subset of AI agents, are designed to autonomously perform tasks
on mobile devices. While numerous studies have introduced agents, datasets, and
benchmarks to advance mobile GUI agent research, many existing datasets focus
on static frame evaluations and fail to provide a comprehensive platform for
assessing performance on real-world, in-the-wild tasks. To address this gap, we
present Android Agent Arena (A3), a novel evaluation platform. Unlike existing
in-the-wild systems, A3 offers: (1) meaningful and practical tasks, such as
real-time online information retrieval and operational instructions; (2) a
larger, more flexible action space, enabling compatibility with agents trained
on any dataset; and (3) automated business-level LLM-based evaluation process.
A3 includes 21 widely used general third-party apps and 201 tasks
representative of common user scenarios, providing a robust foundation for
evaluating mobile GUI agents in real-world situations and a new autonomous
evaluation process for less human labor and coding expertise. The project is
available at https://yuxiangchai.github.io/Android-Agent-Arena/.Summary
AI-Generated Summary