ChatPaper.aiChatPaper

AMEX : Ensemble de Données Multi-Annotations Android pour Agents d'Interface Graphique Mobile

AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents

July 3, 2024
Auteurs: Yuxiang Chai, Siyuan Huang, Yazhe Niu, Han Xiao, Liang Liu, Dingyu Zhang, Peng Gao, Shuai Ren, Hongsheng Li
cs.AI

Résumé

Les agents IA ont suscité une attention croissante, principalement en raison de leur capacité à percevoir des environnements, à comprendre des tâches et à atteindre des objectifs de manière autonome. Pour faire progresser la recherche sur les agents IA dans des scénarios mobiles, nous présentons l'Android Multi-annotation EXpo (AMEX), un ensemble de données complet et à grande échelle conçu pour des agents généralistes de contrôle d'interface graphique (GUI) mobiles. Leurs capacités à accomplir des tâches complexes en interagissant directement avec l'interface graphique sur des appareils mobiles sont entraînées et évaluées à l'aide de cet ensemble de données proposé. AMEX comprend plus de 104 000 captures d'écran haute résolution provenant de 110 applications mobiles populaires, annotées à plusieurs niveaux. Contrairement aux ensembles de données existants pour le contrôle d'appareils mobiles, tels que MoTIF, AitW, etc., AMEX inclut trois niveaux d'annotations : la localisation des éléments interactifs de l'interface graphique, les descriptions fonctionnelles des écrans et des éléments de l'interface graphique, et des instructions complexes en langage naturel, chacune comprenant en moyenne 13 étapes avec des chaînes d'actions d'interface graphique étape par étape. Nous avons développé cet ensemble de données dans une perspective plus instructive et détaillée, complétant ainsi les configurations générales des ensembles de données existants. De plus, nous avons développé un modèle de référence, SPHINX Agent, et comparé ses performances avec celles des agents de pointe entraînés sur d'autres ensembles de données. Pour faciliter des recherches ultérieures, nous mettons à disposition en open source notre ensemble de données, nos modèles et les outils d'évaluation pertinents. Le projet est disponible à l'adresse suivante : https://yuxiangchai.github.io/AMEX/
English
AI agents have drawn increasing attention mostly on their ability to perceive environments, understand tasks, and autonomously achieve goals. To advance research on AI agents in mobile scenarios, we introduce the Android Multi-annotation EXpo (AMEX), a comprehensive, large-scale dataset designed for generalist mobile GUI-control agents. Their capabilities of completing complex tasks by directly interacting with the graphical user interface (GUI) on mobile devices are trained and evaluated with the proposed dataset. AMEX comprises over 104K high-resolution screenshots from 110 popular mobile applications, which are annotated at multiple levels. Unlike existing mobile device-control datasets, e.g., MoTIF, AitW, etc., AMEX includes three levels of annotations: GUI interactive element grounding, GUI screen and element functionality descriptions, and complex natural language instructions, each averaging 13 steps with stepwise GUI-action chains. We develop this dataset from a more instructive and detailed perspective, complementing the general settings of existing datasets. Additionally, we develop a baseline model SPHINX Agent and compare its performance across state-of-the-art agents trained on other datasets. To facilitate further research, we open-source our dataset, models, and relevant evaluation tools. The project is available at https://yuxiangchai.github.io/AMEX/

Summary

AI-Generated Summary

PDF322November 28, 2024