Android em Ambiente Real: Um Conjunto de Dados em Larga Escala para Controle de Dispositivos Android
Android in the Wild: A Large-Scale Dataset for Android Device Control
July 19, 2023
Autores: Christopher Rawles, Alice Li, Daniel Rodriguez, Oriana Riva, Timothy Lillicrap
cs.AI
Resumo
Há um interesse crescente em sistemas de controle de dispositivos que possam interpretar instruções em linguagem natural humana e executá-las em um dispositivo digital, controlando diretamente sua interface de usuário. Apresentamos um conjunto de dados para pesquisa em controle de dispositivos, chamado Android in the Wild (AITW), que é ordens de magnitude maior do que os conjuntos de dados atuais. O conjunto de dados contém demonstrações humanas de interações com dispositivos, incluindo as telas e ações, além de instruções correspondentes em linguagem natural. Ele consiste em 715 mil episódios abrangendo 30 mil instruções únicas, quatro versões do Android (v10-13) e oito tipos de dispositivos (do Pixel 2 XL ao Pixel 6) com diferentes resoluções de tela. O conjunto de dados inclui tarefas de múltiplos passos que exigem compreensão semântica da linguagem e do contexto visual. Esse conjunto de dados apresenta um novo desafio: as ações disponíveis na interface de usuário devem ser inferidas a partir de sua aparência visual. Além disso, em vez de ações simples baseadas em elementos da interface, o espaço de ação consiste em gestos precisos (por exemplo, rolagens horizontais para operar widgets de carrossel). Organizamos nosso conjunto de dados para incentivar a análise de robustez de sistemas de controle de dispositivos, ou seja, quão bem um sistema se desempenha na presença de novas descrições de tarefas, novos aplicativos ou novas versões de plataforma. Desenvolvemos dois agentes e relatamos o desempenho em todo o conjunto de dados. O conjunto de dados está disponível em https://github.com/google-research/google-research/tree/master/android_in_the_wild.
English
There is a growing interest in device-control systems that can interpret
human natural language instructions and execute them on a digital device by
directly controlling its user interface. We present a dataset for
device-control research, Android in the Wild (AITW), which is orders of
magnitude larger than current datasets. The dataset contains human
demonstrations of device interactions, including the screens and actions, and
corresponding natural language instructions. It consists of 715k episodes
spanning 30k unique instructions, four versions of Android (v10-13),and eight
device types (Pixel 2 XL to Pixel 6) with varying screen resolutions. It
contains multi-step tasks that require semantic understanding of language and
visual context. This dataset poses a new challenge: actions available through
the user interface must be inferred from their visual appearance. And, instead
of simple UI element-based actions, the action space consists of precise
gestures (e.g., horizontal scrolls to operate carousel widgets). We organize
our dataset to encourage robustness analysis of device-control systems, i.e.,
how well a system performs in the presence of new task descriptions, new
applications, or new platform versions. We develop two agents and report
performance across the dataset. The dataset is available at
https://github.com/google-research/google-research/tree/master/android_in_the_wild.