GPT-4V в Стране Чудес: Крупномасштабные мультимодальные модели для навигации в графическом интерфейсе смартфона с нулевым обучением
GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation
November 13, 2023
Авторы: An Yan, Zhengyuan Yang, Wanrong Zhu, Kevin Lin, Linjie Li, Jianfeng Wang, Jianwei Yang, Yiwu Zhong, Julian McAuley, Jianfeng Gao, Zicheng Liu, Lijuan Wang
cs.AI
Аннотация
Мы представляем MM-Navigator, агента на основе GPT-4V, предназначенного для задачи навигации по графическому пользовательскому интерфейсу (GUI) смартфона. MM-Navigator способен взаимодействовать с экраном смартфона, как это делают пользователи-люди, и определять последующие действия для выполнения заданных инструкций. Наши результаты демонстрируют, что крупные мультимодальные модели (LMM), в частности GPT-4V, превосходно справляются с нулевым обучением в навигации по GUI благодаря своим продвинутым возможностям интерпретации экрана, рассуждения о действиях и точной локализации действий. Сначала мы тестируем MM-Navigator на собранном нами наборе данных экранов iOS. Согласно оценкам людей, система показала точность 91% в генерации разумных описаний действий и 75% в выполнении правильных действий для одношаговых инструкций на iOS. Кроме того, мы оцениваем модель на подмножестве набора данных для навигации по экранам Android, где модель превосходит предыдущие навигаторы по GUI в режиме нулевого обучения. Наш бенчмарк и детальный анализ направлены на создание прочной основы для будущих исследований задачи навигации по GUI. Страница проекта доступна по адресу https://github.com/zzxslp/MM-Navigator.
English
We present MM-Navigator, a GPT-4V-based agent for the smartphone graphical
user interface (GUI) navigation task. MM-Navigator can interact with a
smartphone screen as human users, and determine subsequent actions to fulfill
given instructions. Our findings demonstrate that large multimodal models
(LMMs), specifically GPT-4V, excel in zero-shot GUI navigation through its
advanced screen interpretation, action reasoning, and precise action
localization capabilities. We first benchmark MM-Navigator on our collected iOS
screen dataset. According to human assessments, the system exhibited a 91\%
accuracy rate in generating reasonable action descriptions and a 75\% accuracy
rate in executing the correct actions for single-step instructions on iOS.
Additionally, we evaluate the model on a subset of an Android screen navigation
dataset, where the model outperforms previous GUI navigators in a zero-shot
fashion. Our benchmark and detailed analyses aim to lay a robust groundwork for
future research into the GUI navigation task. The project page is at
https://github.com/zzxslp/MM-Navigator.