Android in the Wild: Un Ampio Dataset per il Controllo dei Dispositivi Android

Abstract

C'è un crescente interesse per i sistemi di controllo dispositivi in grado di interpretare istruzioni in linguaggio naturale umano ed eseguirle su un dispositivo digitale controllando direttamente la sua interfaccia utente. Presentiamo un dataset per la ricerca sul controllo dispositivi, Android in the Wild (AITW), che è di ordini di grandezza più ampio rispetto ai dataset attuali. Il dataset contiene dimostrazioni umane di interazioni con dispositivi, inclusi schermi e azioni, e le corrispondenti istruzioni in linguaggio naturale. È composto da 715k episodi che coprono 30k istruzioni uniche, quattro versioni di Android (v10-13) e otto tipi di dispositivi (da Pixel 2 XL a Pixel 6) con diverse risoluzioni dello schermo. Contiene task multi-step che richiedono una comprensione semantica del linguaggio e del contesto visivo. Questo dataset presenta una nuova sfida: le azioni disponibili tramite l'interfaccia utente devono essere dedotte dal loro aspetto visivo. Inoltre, invece di semplici azioni basate sugli elementi dell'interfaccia utente, lo spazio delle azioni è composto da gesti precisi (ad esempio, scorrimenti orizzontali per operare widget a carosello). Organizziamo il nostro dataset per incoraggiare l'analisi della robustezza dei sistemi di controllo dispositivi, ovvero quanto bene un sistema si comporta in presenza di nuove descrizioni di task, nuove applicazioni o nuove versioni della piattaforma. Sviluppiamo due agenti e riportiamo le prestazioni sul dataset. Il dataset è disponibile all'indirizzo https://github.com/google-research/google-research/tree/master/android_in_the_wild.

English

There is a growing interest in device-control systems that can interpret human natural language instructions and execute them on a digital device by directly controlling its user interface. We present a dataset for device-control research, Android in the Wild (AITW), which is orders of magnitude larger than current datasets. The dataset contains human demonstrations of device interactions, including the screens and actions, and corresponding natural language instructions. It consists of 715k episodes spanning 30k unique instructions, four versions of Android (v10-13),and eight device types (Pixel 2 XL to Pixel 6) with varying screen resolutions. It contains multi-step tasks that require semantic understanding of language and visual context. This dataset poses a new challenge: actions available through the user interface must be inferred from their visual appearance. And, instead of simple UI element-based actions, the action space consists of precise gestures (e.g., horizontal scrolls to operate carousel widgets). We organize our dataset to encourage robustness analysis of device-control systems, i.e., how well a system performs in the presence of new task descriptions, new applications, or new platform versions. We develop two agents and report performance across the dataset. The dataset is available at https://github.com/google-research/google-research/tree/master/android_in_the_wild.

Android in the Wild: Un Ampio Dataset per il Controllo dei Dispositivi Android

Android in the Wild: A Large-Scale Dataset for Android Device Control

Abstract

Support