Android в реальных условиях: масштабный набор данных для управления устройствами на Android
Android in the Wild: A Large-Scale Dataset for Android Device Control
July 19, 2023
Авторы: Christopher Rawles, Alice Li, Daniel Rodriguez, Oriana Riva, Timothy Lillicrap
cs.AI
Аннотация
Растет интерес к системам управления устройствами, которые могут интерпретировать инструкции на естественном языке и выполнять их на цифровом устройстве, напрямую управляя его пользовательским интерфейсом. Мы представляем набор данных для исследований в области управления устройствами — Android in the Wild (AITW), который на порядки превосходит существующие наборы данных. Этот набор содержит демонстрации взаимодействия с устройствами, включая экраны и действия, а также соответствующие инструкции на естественном языке. Он состоит из 715 тысяч эпизодов, охватывающих 30 тысяч уникальных инструкций, четыре версии Android (v10–13) и восемь типов устройств (от Pixel 2 XL до Pixel 6) с различными разрешениями экрана. Набор включает многошаговые задачи, требующие семантического понимания языка и визуального контекста. Этот набор данных ставит новую задачу: действия, доступные через пользовательский интерфейс, должны быть выведены на основе их визуального представления. Вместо простых действий, основанных на элементах интерфейса, пространство действий состоит из точных жестов (например, горизонтальных прокруток для управления карусельными виджетами). Мы структурируем наш набор данных для анализа устойчивости систем управления устройствами, то есть того, насколько хорошо система справляется с новыми описаниями задач, новыми приложениями или новыми версиями платформ. Мы разрабатываем два агента и сообщаем об их производительности на всем наборе данных. Набор данных доступен по адресу: https://github.com/google-research/google-research/tree/master/android_in_the_wild.
English
There is a growing interest in device-control systems that can interpret
human natural language instructions and execute them on a digital device by
directly controlling its user interface. We present a dataset for
device-control research, Android in the Wild (AITW), which is orders of
magnitude larger than current datasets. The dataset contains human
demonstrations of device interactions, including the screens and actions, and
corresponding natural language instructions. It consists of 715k episodes
spanning 30k unique instructions, four versions of Android (v10-13),and eight
device types (Pixel 2 XL to Pixel 6) with varying screen resolutions. It
contains multi-step tasks that require semantic understanding of language and
visual context. This dataset poses a new challenge: actions available through
the user interface must be inferred from their visual appearance. And, instead
of simple UI element-based actions, the action space consists of precise
gestures (e.g., horizontal scrolls to operate carousel widgets). We organize
our dataset to encourage robustness analysis of device-control systems, i.e.,
how well a system performs in the presence of new task descriptions, new
applications, or new platform versions. We develop two agents and report
performance across the dataset. The dataset is available at
https://github.com/google-research/google-research/tree/master/android_in_the_wild.