AMEX: モバイルGUIエージェント向けAndroidマルチアノテーション展示データセット
AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents
July 3, 2024
著者: Yuxiang Chai, Siyuan Huang, Yazhe Niu, Han Xiao, Liang Liu, Dingyu Zhang, Peng Gao, Shuai Ren, Hongsheng Li
cs.AI
要旨
AIエージェントは、環境を認識し、タスクを理解し、自律的に目標を達成する能力において、ますます注目を集めています。モバイルシナリオにおけるAIエージェントの研究を推進するため、我々はAndroid Multi-annotation EXpo(AMEX)を紹介します。これは、汎用モバイルGUI制御エージェント向けに設計された包括的で大規模なデータセットです。モバイルデバイスのグラフィカルユーザーインターフェース(GUI)を直接操作して複雑なタスクを完了する能力が、提案されたデータセットを用いて訓練および評価されます。AMEXは、110の主要なモバイルアプリケーションから収集された10万4千以上の高解像度スクリーンショットで構成され、複数のレベルで注釈が付けられています。既存のモバイルデバイス制御データセット(例:MoTIF、AitWなど)とは異なり、AMEXは3つのレベルの注釈を含んでいます:GUIインタラクティブ要素のグラウンディング、GUI画面と要素の機能説明、および平均13ステップの段階的なGUIアクションチェーンを伴う複雑な自然言語指示です。我々は、既存のデータセットの一般的な設定を補完するため、より教育的で詳細な観点からこのデータセットを開発しました。さらに、ベースラインモデルSPHINX Agentを開発し、他のデータセットで訓練された最先端のエージェントとの性能を比較します。さらなる研究を促進するため、データセット、モデル、および関連する評価ツールをオープンソースとして公開しています。プロジェクトはhttps://yuxiangchai.github.io/AMEX/で利用可能です。
English
AI agents have drawn increasing attention mostly on their ability to perceive
environments, understand tasks, and autonomously achieve goals. To advance
research on AI agents in mobile scenarios, we introduce the Android
Multi-annotation EXpo (AMEX), a comprehensive, large-scale dataset designed for
generalist mobile GUI-control agents. Their capabilities of completing complex
tasks by directly interacting with the graphical user interface (GUI) on mobile
devices are trained and evaluated with the proposed dataset. AMEX comprises
over 104K high-resolution screenshots from 110 popular mobile applications,
which are annotated at multiple levels. Unlike existing mobile device-control
datasets, e.g., MoTIF, AitW, etc., AMEX includes three levels of annotations:
GUI interactive element grounding, GUI screen and element functionality
descriptions, and complex natural language instructions, each averaging 13
steps with stepwise GUI-action chains. We develop this dataset from a more
instructive and detailed perspective, complementing the general settings of
existing datasets. Additionally, we develop a baseline model SPHINX Agent and
compare its performance across state-of-the-art agents trained on other
datasets. To facilitate further research, we open-source our dataset, models,
and relevant evaluation tools. The project is available at
https://yuxiangchai.github.io/AMEX/Summary
AI-Generated Summary