A3: Android-Agenten-Arena für mobile GUI-Agenten

papers.abstract

KI-Agenten sind in den letzten Jahren zunehmend verbreitet, angetrieben durch bedeutende Fortschritte im Bereich großer Sprachmodelle (LLMs). Mobile GUI-Agenten, eine Unterkategorie von KI-Agenten, sind darauf ausgelegt, Aufgaben autonom auf mobilen Geräten auszuführen. Während zahlreiche Studien Agenten, Datensätze und Benchmarks eingeführt haben, um die Forschung zu mobilen GUI-Agenten voranzutreiben, konzentrieren sich viele bestehende Datensätze auf statische Frame-Bewertungen und bieten keine umfassende Plattform zur Bewertung der Leistung bei realen, in freier Wildbahn durchgeführten Aufgaben. Um diese Lücke zu schließen, präsentieren wir Android Agent Arena (A3), eine neuartige Evaluationsplattform. Im Gegensatz zu bestehenden Systemen in freier Wildbahn bietet A3: (1) sinnvolle und praktische Aufgaben wie Echtzeit-Online-Informationsabruf und operative Anweisungen; (2) einen größeren, flexibleren Aktionsraum, der die Kompatibilität mit Agenten ermöglicht, die auf jedem Datensatz trainiert wurden; und (3) einen automatisierten geschäftsorientierten LLM-basierten Evaluierungsprozess. A3 umfasst 21 weit verbreitete allgemeine Drittanbieter-Apps und 201 Aufgaben, die gängige Benutzerszenarien repräsentieren, und bietet eine robuste Grundlage zur Bewertung von mobilen GUI-Agenten in realen Situationen sowie einen neuen autonomen Evaluierungsprozess für weniger menschliche Arbeitskraft und Codierungsexpertise. Das Projekt ist unter https://yuxiangchai.github.io/Android-Agent-Arena/ verfügbar.

English

AI agents have become increasingly prevalent in recent years, driven by significant advancements in the field of large language models (LLMs). Mobile GUI agents, a subset of AI agents, are designed to autonomously perform tasks on mobile devices. While numerous studies have introduced agents, datasets, and benchmarks to advance mobile GUI agent research, many existing datasets focus on static frame evaluations and fail to provide a comprehensive platform for assessing performance on real-world, in-the-wild tasks. To address this gap, we present Android Agent Arena (A3), a novel evaluation platform. Unlike existing in-the-wild systems, A3 offers: (1) meaningful and practical tasks, such as real-time online information retrieval and operational instructions; (2) a larger, more flexible action space, enabling compatibility with agents trained on any dataset; and (3) automated business-level LLM-based evaluation process. A3 includes 21 widely used general third-party apps and 201 tasks representative of common user scenarios, providing a robust foundation for evaluating mobile GUI agents in real-world situations and a new autonomous evaluation process for less human labor and coding expertise. The project is available at https://yuxiangchai.github.io/Android-Agent-Arena/.

A3: Android-Agenten-Arena für mobile GUI-Agenten

A3: Android Agent Arena for Mobile GUI Agents

papers.abstract

Support