야생의 안드로이드: 안드로이드 기기 제어를 위한 대규모 데이터셋
Android in the Wild: A Large-Scale Dataset for Android Device Control
July 19, 2023
저자: Christopher Rawles, Alice Li, Daniel Rodriguez, Oriana Riva, Timothy Lillicrap
cs.AI
초록
디바이스 제어 시스템에 대한 관심이 점차 증가하고 있으며, 이러한 시스템은 인간의 자연어 명령을 해석하여 디지털 디바이스의 사용자 인터페이스를 직접 제어함으로써 해당 명령을 실행할 수 있습니다. 본 논문에서는 디바이스 제어 연구를 위한 데이터셋인 Android in the Wild(AITW)를 소개합니다. 이 데이터셋은 기존 데이터셋보다 규모가 훨씬 크며, 디바이스 상호작용에 대한 인간의 데모, 화면 및 동작, 그리고 해당 자연어 명령을 포함하고 있습니다. 이 데이터셋은 30,000개의 고유한 명령어로 구성된 715,000개의 에피소드로 이루어져 있으며, Android 버전 10부터 13까지의 네 가지 버전과 Pixel 2 XL부터 Pixel 6까지의 여덟 가지 디바이스 유형을 포함합니다. 또한, 다양한 화면 해상도를 지원하며, 언어와 시각적 맥락에 대한 의미적 이해가 필요한 다단계 작업을 포함하고 있습니다. 이 데이터셋은 새로운 도전 과제를 제시합니다: 사용자 인터페이스를 통해 가능한 동작은 시각적 외관으로부터 추론되어야 합니다. 그리고 단순한 UI 요소 기반의 동작 대신, 정확한 제스처(예: 캐러셀 위젯을 조작하기 위한 수평 스크롤)로 구성된 동작 공간을 포함합니다. 우리는 이 데이터셋을 디바이스 제어 시스템의 견고성 분석을 촉진하기 위해 구성했습니다. 즉, 새로운 작업 설명, 새로운 애플리케이션, 또는 새로운 플랫폼 버전이 있을 때 시스템이 얼마나 잘 수행되는지 분석할 수 있도록 설계했습니다. 우리는 두 가지 에이전트를 개발하고 데이터셋 전반에 걸친 성능을 보고합니다. 이 데이터셋은 https://github.com/google-research/google-research/tree/master/android_in_the_wild에서 확인할 수 있습니다.
English
There is a growing interest in device-control systems that can interpret
human natural language instructions and execute them on a digital device by
directly controlling its user interface. We present a dataset for
device-control research, Android in the Wild (AITW), which is orders of
magnitude larger than current datasets. The dataset contains human
demonstrations of device interactions, including the screens and actions, and
corresponding natural language instructions. It consists of 715k episodes
spanning 30k unique instructions, four versions of Android (v10-13),and eight
device types (Pixel 2 XL to Pixel 6) with varying screen resolutions. It
contains multi-step tasks that require semantic understanding of language and
visual context. This dataset poses a new challenge: actions available through
the user interface must be inferred from their visual appearance. And, instead
of simple UI element-based actions, the action space consists of precise
gestures (e.g., horizontal scrolls to operate carousel widgets). We organize
our dataset to encourage robustness analysis of device-control systems, i.e.,
how well a system performs in the presence of new task descriptions, new
applications, or new platform versions. We develop two agents and report
performance across the dataset. The dataset is available at
https://github.com/google-research/google-research/tree/master/android_in_the_wild.