AMEX: 모바일 GUI 에이전트를 위한 Android 다중 주석 엑스포 데이터셋
AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents
July 3, 2024
저자: Yuxiang Chai, Siyuan Huang, Yazhe Niu, Han Xiao, Liang Liu, Dingyu Zhang, Peng Gao, Shuai Ren, Hongsheng Li
cs.AI
초록
AI 에이전트는 주로 환경을 인지하고, 작업을 이해하며, 목표를 자율적으로 달성하는 능력으로 인해 점점 더 많은 관심을 받고 있습니다. 모바일 시나리오에서의 AI 에이전트 연구를 발전시키기 위해, 우리는 일반적인 모바일 GUI 제어 에이전트를 위해 설계된 포괄적이고 대규모의 데이터셋인 Android Multi-annotation EXpo(AMEX)를 소개합니다. 이 데이터셋을 통해 모바일 기기의 그래픽 사용자 인터페이스(GUI)와 직접 상호작용하여 복잡한 작업을 완료하는 능력을 훈련하고 평가합니다. AMEX는 110개의 인기 모바일 애플리케이션에서 추출한 104,000개 이상의 고해상도 스크린샷으로 구성되어 있으며, 여러 수준으로 주석이 달려 있습니다. 기존의 모바일 기기 제어 데이터셋(예: MoTIF, AitW 등)과 달리, AMEX는 세 가지 수준의 주석을 포함합니다: GUI 상호작용 요소 위치 지정, GUI 화면 및 요소 기능 설명, 그리고 평균 13단계의 단계별 GUI 액션 체인을 포함한 복잡한 자연어 지시문입니다. 우리는 이 데이터셋을 보다 교육적이고 상세한 관점에서 개발하여 기존 데이터셋의 일반적인 설정을 보완합니다. 또한, 우리는 베이스라인 모델인 SPHINX Agent를 개발하고, 다른 데이터셋으로 훈련된 최신 에이전트들과의 성능을 비교합니다. 추가 연구를 촉진하기 위해, 우리는 데이터셋, 모델 및 관련 평가 도구를 오픈소스로 공개합니다. 이 프로젝트는 https://yuxiangchai.github.io/AMEX/에서 확인할 수 있습니다.
English
AI agents have drawn increasing attention mostly on their ability to perceive
environments, understand tasks, and autonomously achieve goals. To advance
research on AI agents in mobile scenarios, we introduce the Android
Multi-annotation EXpo (AMEX), a comprehensive, large-scale dataset designed for
generalist mobile GUI-control agents. Their capabilities of completing complex
tasks by directly interacting with the graphical user interface (GUI) on mobile
devices are trained and evaluated with the proposed dataset. AMEX comprises
over 104K high-resolution screenshots from 110 popular mobile applications,
which are annotated at multiple levels. Unlike existing mobile device-control
datasets, e.g., MoTIF, AitW, etc., AMEX includes three levels of annotations:
GUI interactive element grounding, GUI screen and element functionality
descriptions, and complex natural language instructions, each averaging 13
steps with stepwise GUI-action chains. We develop this dataset from a more
instructive and detailed perspective, complementing the general settings of
existing datasets. Additionally, we develop a baseline model SPHINX Agent and
compare its performance across state-of-the-art agents trained on other
datasets. To facilitate further research, we open-source our dataset, models,
and relevant evaluation tools. The project is available at
https://yuxiangchai.github.io/AMEX/Summary
AI-Generated Summary