ChatPaper.aiChatPaper

AMEX: Набор данных Android Multi-annotation Expo для агентов мобильного графического интерфейса.

AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents

July 3, 2024
Авторы: Yuxiang Chai, Siyuan Huang, Yazhe Niu, Han Xiao, Liang Liu, Dingyu Zhang, Peng Gao, Shuai Ren, Hongsheng Li
cs.AI

Аннотация

Искусственные интеллектуальные агенты привлекают все больше внимания, в основном благодаря их способности воспринимать окружающую среду, понимать задачи и автономно достигать целей. Для продвижения исследований по искусственным интеллектуальным агентам в мобильных сценариях мы представляем Android Multi-annotation EXpo (AMEX) - обширный масштабный набор данных, разработанный для универсальных мобильных агентов управления графическим интерфейсом пользователя (GUI). Их способности выполнять сложные задачи путем прямого взаимодействия с GUI на мобильных устройствах обучаются и оцениваются с использованием предложенного набора данных. AMEX включает более 104 тыс. высокоразрешенных скриншотов из 110 популярных мобильных приложений, которые аннотированы на нескольких уровнях. В отличие от существующих наборов данных для управления мобильными устройствами, таких как MoTIF, AitW и др., AMEX включает три уровня аннотаций: привязку интерактивных элементов GUI, описания экрана и функциональности элементов GUI, а также сложные инструкции на естественном языке, каждая из которых включает в себя в среднем 13 шагов с последовательными цепочками действий GUI. Мы разработали этот набор данных с более информативной и детальной перспективы, дополняя общие настройки существующих наборов данных. Кроме того, мы разработали базовую модель SPHINX Agent и сравнили ее производительность с агентами последнего поколения, обученными на других наборах данных. Для упрощения дальнейших исследований мы открыли исходный код нашего набора данных, моделей и соответствующих инструментов оценки. Проект доступен по адресу https://yuxiangchai.github.io/AMEX/
English
AI agents have drawn increasing attention mostly on their ability to perceive environments, understand tasks, and autonomously achieve goals. To advance research on AI agents in mobile scenarios, we introduce the Android Multi-annotation EXpo (AMEX), a comprehensive, large-scale dataset designed for generalist mobile GUI-control agents. Their capabilities of completing complex tasks by directly interacting with the graphical user interface (GUI) on mobile devices are trained and evaluated with the proposed dataset. AMEX comprises over 104K high-resolution screenshots from 110 popular mobile applications, which are annotated at multiple levels. Unlike existing mobile device-control datasets, e.g., MoTIF, AitW, etc., AMEX includes three levels of annotations: GUI interactive element grounding, GUI screen and element functionality descriptions, and complex natural language instructions, each averaging 13 steps with stepwise GUI-action chains. We develop this dataset from a more instructive and detailed perspective, complementing the general settings of existing datasets. Additionally, we develop a baseline model SPHINX Agent and compare its performance across state-of-the-art agents trained on other datasets. To facilitate further research, we open-source our dataset, models, and relevant evaluation tools. The project is available at https://yuxiangchai.github.io/AMEX/

Summary

AI-Generated Summary

PDF322November 28, 2024