Android en el Mundo Real: Un Conjunto de Datos a Gran Escala para el Control de Dispositivos Android
Android in the Wild: A Large-Scale Dataset for Android Device Control
July 19, 2023
Autores: Christopher Rawles, Alice Li, Daniel Rodriguez, Oriana Riva, Timothy Lillicrap
cs.AI
Resumen
Existe un creciente interés en los sistemas de control de dispositivos que pueden interpretar instrucciones en lenguaje natural humano y ejecutarlas en un dispositivo digital controlando directamente su interfaz de usuario. Presentamos un conjunto de datos para investigación en control de dispositivos, Android in the Wild (AITW), que es órdenes de magnitud más grande que los conjuntos de datos actuales. El conjunto de datos contiene demostraciones humanas de interacciones con dispositivos, incluyendo las pantallas y acciones, junto con las correspondientes instrucciones en lenguaje natural. Consta de 715k episodios que abarcan 30k instrucciones únicas, cuatro versiones de Android (v10-13) y ocho tipos de dispositivos (desde Pixel 2 XL hasta Pixel 6) con diferentes resoluciones de pantalla. Incluye tareas de múltiples pasos que requieren comprensión semántica del lenguaje y del contexto visual. Este conjunto de datos plantea un nuevo desafío: las acciones disponibles a través de la interfaz de usuario deben inferirse a partir de su apariencia visual. Además, en lugar de acciones simples basadas en elementos de la interfaz, el espacio de acciones consiste en gestos precisos (por ejemplo, desplazamientos horizontales para operar widgets de carrusel). Organizamos nuestro conjunto de datos para fomentar el análisis de robustez de los sistemas de control de dispositivos, es decir, qué tan bien funciona un sistema ante nuevas descripciones de tareas, nuevas aplicaciones o nuevas versiones de plataformas. Desarrollamos dos agentes e informamos su rendimiento en todo el conjunto de datos. El conjunto de datos está disponible en https://github.com/google-research/google-research/tree/master/android_in_the_wild.
English
There is a growing interest in device-control systems that can interpret
human natural language instructions and execute them on a digital device by
directly controlling its user interface. We present a dataset for
device-control research, Android in the Wild (AITW), which is orders of
magnitude larger than current datasets. The dataset contains human
demonstrations of device interactions, including the screens and actions, and
corresponding natural language instructions. It consists of 715k episodes
spanning 30k unique instructions, four versions of Android (v10-13),and eight
device types (Pixel 2 XL to Pixel 6) with varying screen resolutions. It
contains multi-step tasks that require semantic understanding of language and
visual context. This dataset poses a new challenge: actions available through
the user interface must be inferred from their visual appearance. And, instead
of simple UI element-based actions, the action space consists of precise
gestures (e.g., horizontal scrolls to operate carousel widgets). We organize
our dataset to encourage robustness analysis of device-control systems, i.e.,
how well a system performs in the presence of new task descriptions, new
applications, or new platform versions. We develop two agents and report
performance across the dataset. The dataset is available at
https://github.com/google-research/google-research/tree/master/android_in_the_wild.