AMEX: Android Multi-Annotierungs-Expo-Datensatz für mobile GUI-Agenten
AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents
July 3, 2024
Autoren: Yuxiang Chai, Siyuan Huang, Yazhe Niu, Han Xiao, Liang Liu, Dingyu Zhang, Peng Gao, Shuai Ren, Hongsheng Li
cs.AI
Zusammenfassung
KI-Agenten haben hauptsächlich aufgrund ihrer Fähigkeit, Umgebungen wahrzunehmen, Aufgaben zu verstehen und autonom Ziele zu erreichen, zunehmend Aufmerksamkeit erregt. Um die Forschung zu KI-Agenten in mobilen Szenarien voranzutreiben, stellen wir das Android Multi-annotation EXpo (AMEX) vor, einen umfassenden, groß angelegten Datensatz, der für generalistische mobile GUI-Steuerungsagenten konzipiert ist. Deren Fähigkeiten, komplexe Aufgaben durch direkte Interaktion mit der grafischen Benutzeroberfläche (GUI) auf mobilen Geräten zu erledigen, werden mit dem vorgeschlagenen Datensatz trainiert und bewertet. AMEX umfasst über 104.000 hochauflösende Screenshots von 110 beliebten mobilen Anwendungen, die auf mehreren Ebenen annotiert sind. Im Gegensatz zu bestehenden Datensätzen zur Steuerung mobiler Geräte, z. B. MoTIF, AitW usw., enthält AMEX drei Ebenen von Annotationen: GUI-interaktive Elementverankerung, GUI-Bildschirm- und Elementfunktionsbeschreibungen sowie komplexe natürlichsprachliche Anweisungen, die durchschnittlich 13 Schritte mit schrittweisen GUI-Aktionsketten umfassen. Wir entwickeln diesen Datensatz aus einer instruktiven und detaillierten Perspektive, um die allgemeinen Einstellungen bestehender Datensätze zu ergänzen. Darüber hinaus entwickeln wir ein Basismodell SPHINX Agent und vergleichen dessen Leistung mit Agenten auf dem neuesten Stand der Technik, die auf anderen Datensätzen trainiert wurden. Um weitere Forschung zu erleichtern, stellen wir unseren Datensatz, Modelle und relevante Evaluierungstools als Open Source zur Verfügung. Das Projekt ist unter https://yuxiangchai.github.io/AMEX/ verfügbar.
English
AI agents have drawn increasing attention mostly on their ability to perceive
environments, understand tasks, and autonomously achieve goals. To advance
research on AI agents in mobile scenarios, we introduce the Android
Multi-annotation EXpo (AMEX), a comprehensive, large-scale dataset designed for
generalist mobile GUI-control agents. Their capabilities of completing complex
tasks by directly interacting with the graphical user interface (GUI) on mobile
devices are trained and evaluated with the proposed dataset. AMEX comprises
over 104K high-resolution screenshots from 110 popular mobile applications,
which are annotated at multiple levels. Unlike existing mobile device-control
datasets, e.g., MoTIF, AitW, etc., AMEX includes three levels of annotations:
GUI interactive element grounding, GUI screen and element functionality
descriptions, and complex natural language instructions, each averaging 13
steps with stepwise GUI-action chains. We develop this dataset from a more
instructive and detailed perspective, complementing the general settings of
existing datasets. Additionally, we develop a baseline model SPHINX Agent and
compare its performance across state-of-the-art agents trained on other
datasets. To facilitate further research, we open-source our dataset, models,
and relevant evaluation tools. The project is available at
https://yuxiangchai.github.io/AMEX/Summary
AI-Generated Summary