ChatPaper.aiChatPaper

Android in the Wild: Ein umfangreicher Datensatz zur Steuerung von Android-Geräten

Android in the Wild: A Large-Scale Dataset for Android Device Control

July 19, 2023
Autoren: Christopher Rawles, Alice Li, Daniel Rodriguez, Oriana Riva, Timothy Lillicrap
cs.AI

Zusammenfassung

Es gibt ein zunehmendes Interesse an Gerätesteuerungssystemen, die menschliche Anweisungen in natürlicher Sprache interpretieren und diese auf einem digitalen Gerät ausführen können, indem sie dessen Benutzeroberfläche direkt steuern. Wir präsentieren ein Datenset für die Forschung zur Gerätesteuerung, Android in the Wild (AITW), das um Größenordnungen umfangreicher ist als aktuelle Datensätze. Das Datenset enthält menschliche Demonstrationen von Geräteinteraktionen, einschließlich der Bildschirme und Aktionen, sowie entsprechende Anweisungen in natürlicher Sprache. Es besteht aus 715.000 Episoden, die 30.000 einzigartige Anweisungen umfassen, vier Versionen von Android (v10-13) und acht Gerätetypen (Pixel 2 XL bis Pixel 6) mit unterschiedlichen Bildschirmauflösungen. Es enthält mehrstufige Aufgaben, die ein semantisches Verständnis von Sprache und visuellem Kontext erfordern. Dieser Datensatz stellt eine neue Herausforderung dar: Die über die Benutzeroberfläche verfügbaren Aktionen müssen aus ihrem visuellen Erscheinungsbild abgeleitet werden. Und anstelle von einfachen, auf UI-Elementen basierenden Aktionen besteht der Aktionsraum aus präzisen Gesten (z. B. horizontales Scrollen zur Bedienung von Karussell-Widgets). Wir strukturieren unseren Datensatz so, dass er die Robustheitsanalyse von Gerätesteuerungssystemen fördert, d. h. wie gut ein System bei neuen Aufgabenbeschreibungen, neuen Anwendungen oder neuen Plattformversionen abschneidet. Wir entwickeln zwei Agenten und berichten über deren Leistung im gesamten Datensatz. Der Datensatz ist verfügbar unter https://github.com/google-research/google-research/tree/master/android_in_the_wild.
English
There is a growing interest in device-control systems that can interpret human natural language instructions and execute them on a digital device by directly controlling its user interface. We present a dataset for device-control research, Android in the Wild (AITW), which is orders of magnitude larger than current datasets. The dataset contains human demonstrations of device interactions, including the screens and actions, and corresponding natural language instructions. It consists of 715k episodes spanning 30k unique instructions, four versions of Android (v10-13),and eight device types (Pixel 2 XL to Pixel 6) with varying screen resolutions. It contains multi-step tasks that require semantic understanding of language and visual context. This dataset poses a new challenge: actions available through the user interface must be inferred from their visual appearance. And, instead of simple UI element-based actions, the action space consists of precise gestures (e.g., horizontal scrolls to operate carousel widgets). We organize our dataset to encourage robustness analysis of device-control systems, i.e., how well a system performs in the presence of new task descriptions, new applications, or new platform versions. We develop two agents and report performance across the dataset. The dataset is available at https://github.com/google-research/google-research/tree/master/android_in_the_wild.
PDF111December 15, 2024