Android in the Wild: Androidデバイス制御のための大規模データセット
Android in the Wild: A Large-Scale Dataset for Android Device Control
July 19, 2023
著者: Christopher Rawles, Alice Li, Daniel Rodriguez, Oriana Riva, Timothy Lillicrap
cs.AI
要旨
人間の自然言語指示を解釈し、デジタルデバイスのユーザーインターフェースを直接制御することで実行するデバイス制御システムに対する関心が高まっています。本研究では、デバイス制御研究のためのデータセット「Android in the Wild (AITW)」を紹介します。このデータセットは、既存のデータセットよりも桁違いに大規模であり、デバイス操作の人間によるデモンストレーション(画面とアクションを含む)と対応する自然言語指示を含んでいます。715,000のエピソードから構成され、30,000のユニークな指示、4つのAndroidバージョン(v10-13)、8つのデバイスタイプ(Pixel 2 XLからPixel 6まで)をカバーし、画面解像度も多様です。このデータセットには、言語と視覚的コンテキストの意味的理解を必要とする多段階タスクが含まれています。このデータセットは新たな課題を提示しています:ユーザーインターフェースを通じて利用可能なアクションは、その視覚的な外観から推測する必要があります。また、単純なUI要素ベースのアクションではなく、アクション空間は精密なジェスチャー(例えば、カルーセルウィジェットを操作するための水平スクロール)で構成されています。本データセットは、デバイス制御システムのロバスト性分析(新しいタスク記述、新しいアプリケーション、新しいプラットフォームバージョンに対するシステムの性能)を促進するように構成されています。我々は2つのエージェントを開発し、データセット全体での性能を報告します。データセットはhttps://github.com/google-research/google-research/tree/master/android_in_the_wildで公開されています。
English
There is a growing interest in device-control systems that can interpret
human natural language instructions and execute them on a digital device by
directly controlling its user interface. We present a dataset for
device-control research, Android in the Wild (AITW), which is orders of
magnitude larger than current datasets. The dataset contains human
demonstrations of device interactions, including the screens and actions, and
corresponding natural language instructions. It consists of 715k episodes
spanning 30k unique instructions, four versions of Android (v10-13),and eight
device types (Pixel 2 XL to Pixel 6) with varying screen resolutions. It
contains multi-step tasks that require semantic understanding of language and
visual context. This dataset poses a new challenge: actions available through
the user interface must be inferred from their visual appearance. And, instead
of simple UI element-based actions, the action space consists of precise
gestures (e.g., horizontal scrolls to operate carousel widgets). We organize
our dataset to encourage robustness analysis of device-control systems, i.e.,
how well a system performs in the presence of new task descriptions, new
applications, or new platform versions. We develop two agents and report
performance across the dataset. The dataset is available at
https://github.com/google-research/google-research/tree/master/android_in_the_wild.