ChatPaper.aiChatPaper

GPT-4Vの不思議の国:ゼロショットスマートフォンGUIナビゲーションのための大規模マルチモーダルモデル

GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation

November 13, 2023
著者: An Yan, Zhengyuan Yang, Wanrong Zhu, Kevin Lin, Linjie Li, Jianfeng Wang, Jianwei Yang, Yiwu Zhong, Julian McAuley, Jianfeng Gao, Zicheng Liu, Lijuan Wang
cs.AI

要旨

本論文では、スマートフォンのグラフィカルユーザーインターフェース(GUI)ナビゲーションタスク向けのGPT-4VベースのエージェントであるMM-Navigatorを紹介します。MM-Navigatorは、人間のユーザーと同様にスマートフォンの画面と対話し、与えられた指示を達成するための次のアクションを決定することができます。我々の研究結果は、大規模マルチモーダルモデル(LMM)、特にGPT-4Vが、高度な画面解釈、アクション推論、および正確なアクション位置特定能力を活用して、ゼロショットGUIナビゲーションにおいて優れた性能を発揮することを示しています。まず、MM-Navigatorを収集したiOS画面データセットでベンチマークしました。人間による評価によると、システムはiOS上での単一ステップの指示に対して、合理的なアクション記述を生成する精度が91%、正しいアクションを実行する精度が75%を示しました。さらに、Android画面ナビゲーションデータセットのサブセットでモデルを評価し、モデルがゼロショット方式で従来のGUIナビゲーターを上回る性能を示しました。我々のベンチマークと詳細な分析は、GUIナビゲーションタスクの将来の研究に向けた堅固な基盤を築くことを目指しています。プロジェクトページはhttps://github.com/zzxslp/MM-Navigatorにあります。
English
We present MM-Navigator, a GPT-4V-based agent for the smartphone graphical user interface (GUI) navigation task. MM-Navigator can interact with a smartphone screen as human users, and determine subsequent actions to fulfill given instructions. Our findings demonstrate that large multimodal models (LMMs), specifically GPT-4V, excel in zero-shot GUI navigation through its advanced screen interpretation, action reasoning, and precise action localization capabilities. We first benchmark MM-Navigator on our collected iOS screen dataset. According to human assessments, the system exhibited a 91\% accuracy rate in generating reasonable action descriptions and a 75\% accuracy rate in executing the correct actions for single-step instructions on iOS. Additionally, we evaluate the model on a subset of an Android screen navigation dataset, where the model outperforms previous GUI navigators in a zero-shot fashion. Our benchmark and detailed analyses aim to lay a robust groundwork for future research into the GUI navigation task. The project page is at https://github.com/zzxslp/MM-Navigator.
PDF151December 15, 2024