Android dans la nature : Un vaste ensemble de données pour le contrôle des appareils Android
Android in the Wild: A Large-Scale Dataset for Android Device Control
July 19, 2023
Auteurs: Christopher Rawles, Alice Li, Daniel Rodriguez, Oriana Riva, Timothy Lillicrap
cs.AI
Résumé
L'intérêt croît pour les systèmes de contrôle d'appareils capables d'interpréter les instructions en langage naturel humain et de les exécuter sur un appareil numérique en contrôlant directement son interface utilisateur. Nous présentons un ensemble de données pour la recherche sur le contrôle d'appareils, Android in the Wild (AITW), qui est d'un ordre de grandeur supérieur aux ensembles de données actuels. Ce jeu de données contient des démonstrations humaines d'interactions avec des appareils, incluant les écrans et les actions, ainsi que les instructions en langage naturel correspondantes. Il comprend 715 000 épisodes couvrant 30 000 instructions uniques, quatre versions d'Android (v10-13) et huit types d'appareils (du Pixel 2 XL au Pixel 6) avec des résolutions d'écran variées. Il contient des tâches multi-étapes nécessitant une compréhension sémantique du langage et du contexte visuel. Ce jeu de données pose un nouveau défi : les actions disponibles via l'interface utilisateur doivent être déduites de leur apparence visuelle. De plus, au lieu d'actions simples basées sur des éléments d'interface, l'espace d'actions est constitué de gestes précis (par exemple, des défilements horizontaux pour manipuler des widgets de carrousel). Nous organisons notre jeu de données pour encourager l'analyse de la robustesse des systèmes de contrôle d'appareils, c'est-à-dire leur performance face à de nouvelles descriptions de tâches, de nouvelles applications ou de nouvelles versions de plateforme. Nous développons deux agents et rapportons leurs performances sur l'ensemble du jeu de données. Le jeu de données est disponible à l'adresse suivante : https://github.com/google-research/google-research/tree/master/android_in_the_wild.
English
There is a growing interest in device-control systems that can interpret
human natural language instructions and execute them on a digital device by
directly controlling its user interface. We present a dataset for
device-control research, Android in the Wild (AITW), which is orders of
magnitude larger than current datasets. The dataset contains human
demonstrations of device interactions, including the screens and actions, and
corresponding natural language instructions. It consists of 715k episodes
spanning 30k unique instructions, four versions of Android (v10-13),and eight
device types (Pixel 2 XL to Pixel 6) with varying screen resolutions. It
contains multi-step tasks that require semantic understanding of language and
visual context. This dataset poses a new challenge: actions available through
the user interface must be inferred from their visual appearance. And, instead
of simple UI element-based actions, the action space consists of precise
gestures (e.g., horizontal scrolls to operate carousel widgets). We organize
our dataset to encourage robustness analysis of device-control systems, i.e.,
how well a system performs in the presence of new task descriptions, new
applications, or new platform versions. We develop two agents and report
performance across the dataset. The dataset is available at
https://github.com/google-research/google-research/tree/master/android_in_the_wild.