Android in het Wild: Een Grootschalige Dataset voor Android Apparaatbesturing
Android in the Wild: A Large-Scale Dataset for Android Device Control
July 19, 2023
Auteurs: Christopher Rawles, Alice Li, Daniel Rodriguez, Oriana Riva, Timothy Lillicrap
cs.AI
Samenvatting
Er is een groeiende interesse in apparaatbesturingssystemen die menselijke instructies in natuurlijke taal kunnen interpreteren en uitvoeren op een digitaal apparaat door direct de gebruikersinterface te besturen. Wij presenteren een dataset voor onderzoek naar apparaatbesturing, Android in the Wild (AITW), die vele malen groter is dan de huidige datasets. De dataset bevat menselijke demonstraties van apparaatinteracties, inclusief de schermen en acties, en de bijbehorende instructies in natuurlijke taal. De dataset bestaat uit 715k episodes die 30k unieke instructies omvatten, vier versies van Android (v10-13) en acht apparaattypen (Pixel 2 XL tot Pixel 6) met verschillende schermresoluties. Het bevat meerstaps taken die een semantisch begrip van taal en visuele context vereisen. Deze dataset stelt een nieuwe uitdaging: acties die beschikbaar zijn via de gebruikersinterface moeten worden afgeleid uit hun visuele verschijning. En in plaats van eenvoudige op UI-elementen gebaseerde acties, bestaat de actieruimte uit precieze gebaren (bijvoorbeeld horizontale scrolls om carousel-widgets te bedienen). We organiseren onze dataset om robuustheidsanalyse van apparaatbesturingssystemen te bevorderen, d.w.z. hoe goed een systeem presteert in de aanwezigheid van nieuwe taakbeschrijvingen, nieuwe applicaties of nieuwe platformversies. We ontwikkelen twee agents en rapporteren de prestaties over de hele dataset. De dataset is beschikbaar op https://github.com/google-research/google-research/tree/master/android_in_the_wild.
English
There is a growing interest in device-control systems that can interpret
human natural language instructions and execute them on a digital device by
directly controlling its user interface. We present a dataset for
device-control research, Android in the Wild (AITW), which is orders of
magnitude larger than current datasets. The dataset contains human
demonstrations of device interactions, including the screens and actions, and
corresponding natural language instructions. It consists of 715k episodes
spanning 30k unique instructions, four versions of Android (v10-13),and eight
device types (Pixel 2 XL to Pixel 6) with varying screen resolutions. It
contains multi-step tasks that require semantic understanding of language and
visual context. This dataset poses a new challenge: actions available through
the user interface must be inferred from their visual appearance. And, instead
of simple UI element-based actions, the action space consists of precise
gestures (e.g., horizontal scrolls to operate carousel widgets). We organize
our dataset to encourage robustness analysis of device-control systems, i.e.,
how well a system performs in the presence of new task descriptions, new
applications, or new platform versions. We develop two agents and report
performance across the dataset. The dataset is available at
https://github.com/google-research/google-research/tree/master/android_in_the_wild.