A3: Android-Agenten-Arena für mobile GUI-Agenten
A3: Android Agent Arena for Mobile GUI Agents
January 2, 2025
Autoren: Yuxiang Chai, Hanhao Li, Jiayu Zhang, Liang Liu, Guozhi Wang, Shuai Ren, Siyuan Huang, Hongsheng Li
cs.AI
Zusammenfassung
KI-Agenten sind in den letzten Jahren zunehmend verbreitet, angetrieben durch bedeutende Fortschritte im Bereich großer Sprachmodelle (LLMs). Mobile GUI-Agenten, eine Unterkategorie von KI-Agenten, sind darauf ausgelegt, Aufgaben autonom auf mobilen Geräten auszuführen. Während zahlreiche Studien Agenten, Datensätze und Benchmarks eingeführt haben, um die Forschung zu mobilen GUI-Agenten voranzutreiben, konzentrieren sich viele bestehende Datensätze auf statische Frame-Bewertungen und bieten keine umfassende Plattform zur Bewertung der Leistung bei realen, in freier Wildbahn durchgeführten Aufgaben. Um diese Lücke zu schließen, präsentieren wir Android Agent Arena (A3), eine neuartige Evaluationsplattform. Im Gegensatz zu bestehenden Systemen in freier Wildbahn bietet A3: (1) sinnvolle und praktische Aufgaben wie Echtzeit-Online-Informationsabruf und operative Anweisungen; (2) einen größeren, flexibleren Aktionsraum, der die Kompatibilität mit Agenten ermöglicht, die auf jedem Datensatz trainiert wurden; und (3) einen automatisierten geschäftsorientierten LLM-basierten Evaluierungsprozess. A3 umfasst 21 weit verbreitete allgemeine Drittanbieter-Apps und 201 Aufgaben, die gängige Benutzerszenarien repräsentieren, und bietet eine robuste Grundlage zur Bewertung von mobilen GUI-Agenten in realen Situationen sowie einen neuen autonomen Evaluierungsprozess für weniger menschliche Arbeitskraft und Codierungsexpertise. Das Projekt ist unter https://yuxiangchai.github.io/Android-Agent-Arena/ verfügbar.
English
AI agents have become increasingly prevalent in recent years, driven by
significant advancements in the field of large language models (LLMs). Mobile
GUI agents, a subset of AI agents, are designed to autonomously perform tasks
on mobile devices. While numerous studies have introduced agents, datasets, and
benchmarks to advance mobile GUI agent research, many existing datasets focus
on static frame evaluations and fail to provide a comprehensive platform for
assessing performance on real-world, in-the-wild tasks. To address this gap, we
present Android Agent Arena (A3), a novel evaluation platform. Unlike existing
in-the-wild systems, A3 offers: (1) meaningful and practical tasks, such as
real-time online information retrieval and operational instructions; (2) a
larger, more flexible action space, enabling compatibility with agents trained
on any dataset; and (3) automated business-level LLM-based evaluation process.
A3 includes 21 widely used general third-party apps and 201 tasks
representative of common user scenarios, providing a robust foundation for
evaluating mobile GUI agents in real-world situations and a new autonomous
evaluation process for less human labor and coding expertise. The project is
available at https://yuxiangchai.github.io/Android-Agent-Arena/.Summary
AI-Generated Summary