Android in the Wild: Un Ampio Dataset per il Controllo dei Dispositivi Android
Android in the Wild: A Large-Scale Dataset for Android Device Control
July 19, 2023
Autori: Christopher Rawles, Alice Li, Daniel Rodriguez, Oriana Riva, Timothy Lillicrap
cs.AI
Abstract
C'è un crescente interesse per i sistemi di controllo dispositivi in grado di interpretare istruzioni in linguaggio naturale umano ed eseguirle su un dispositivo digitale controllando direttamente la sua interfaccia utente. Presentiamo un dataset per la ricerca sul controllo dispositivi, Android in the Wild (AITW), che è di ordini di grandezza più ampio rispetto ai dataset attuali. Il dataset contiene dimostrazioni umane di interazioni con dispositivi, inclusi schermi e azioni, e le corrispondenti istruzioni in linguaggio naturale. È composto da 715k episodi che coprono 30k istruzioni uniche, quattro versioni di Android (v10-13) e otto tipi di dispositivi (da Pixel 2 XL a Pixel 6) con diverse risoluzioni dello schermo. Contiene task multi-step che richiedono una comprensione semantica del linguaggio e del contesto visivo. Questo dataset presenta una nuova sfida: le azioni disponibili tramite l'interfaccia utente devono essere dedotte dal loro aspetto visivo. Inoltre, invece di semplici azioni basate sugli elementi dell'interfaccia utente, lo spazio delle azioni è composto da gesti precisi (ad esempio, scorrimenti orizzontali per operare widget a carosello). Organizziamo il nostro dataset per incoraggiare l'analisi della robustezza dei sistemi di controllo dispositivi, ovvero quanto bene un sistema si comporta in presenza di nuove descrizioni di task, nuove applicazioni o nuove versioni della piattaforma. Sviluppiamo due agenti e riportiamo le prestazioni sul dataset. Il dataset è disponibile all'indirizzo https://github.com/google-research/google-research/tree/master/android_in_the_wild.
English
There is a growing interest in device-control systems that can interpret
human natural language instructions and execute them on a digital device by
directly controlling its user interface. We present a dataset for
device-control research, Android in the Wild (AITW), which is orders of
magnitude larger than current datasets. The dataset contains human
demonstrations of device interactions, including the screens and actions, and
corresponding natural language instructions. It consists of 715k episodes
spanning 30k unique instructions, four versions of Android (v10-13),and eight
device types (Pixel 2 XL to Pixel 6) with varying screen resolutions. It
contains multi-step tasks that require semantic understanding of language and
visual context. This dataset poses a new challenge: actions available through
the user interface must be inferred from their visual appearance. And, instead
of simple UI element-based actions, the action space consists of precise
gestures (e.g., horizontal scrolls to operate carousel widgets). We organize
our dataset to encourage robustness analysis of device-control systems, i.e.,
how well a system performs in the presence of new task descriptions, new
applications, or new platform versions. We develop two agents and report
performance across the dataset. The dataset is available at
https://github.com/google-research/google-research/tree/master/android_in_the_wild.