ChatPaper.aiChatPaper

GPT-4V in Wonderland: Grote Multimodale Modellen voor Zero-Shot Navigatie op Smartphone-GUI's

GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation

November 13, 2023
Auteurs: An Yan, Zhengyuan Yang, Wanrong Zhu, Kevin Lin, Linjie Li, Jianfeng Wang, Jianwei Yang, Yiwu Zhong, Julian McAuley, Jianfeng Gao, Zicheng Liu, Lijuan Wang
cs.AI

Samenvatting

We presenteren MM-Navigator, een GPT-4V-gebaseerde agent voor de navigatietaak van grafische gebruikersinterfaces (GUI's) op smartphones. MM-Navigator kan interacteren met een smartphonescherm zoals menselijke gebruikers en vervolgacties bepalen om gegeven instructies uit te voeren. Onze bevindingen tonen aan dat grote multimodale modellen (LMM's), specifiek GPT-4V, uitblinken in zero-shot GUI-navigatie dankzij hun geavanceerde scherminterpretatie, actieredenering en precieze actielokalisatie. We benchmarken eerst MM-Navigator op onze verzamelde iOS-schermdataset. Volgens menselijke beoordelingen vertoonde het systeem een nauwkeurigheid van 91\% in het genereren van redelijke actiebeschrijvingen en een nauwkeurigheid van 75\% in het uitvoeren van de juiste acties voor enkelstapsinstructies op iOS. Daarnaast evalueren we het model op een subset van een Android-schermnavigatiedataset, waar het model eerdere GUI-navigators overtreft in een zero-shot benadering. Onze benchmark en gedetailleerde analyses beogen een stevige basis te leggen voor toekomstig onderzoek naar de GUI-navigatietaak. De projectpagina is te vinden op https://github.com/zzxslp/MM-Navigator.
English
We present MM-Navigator, a GPT-4V-based agent for the smartphone graphical user interface (GUI) navigation task. MM-Navigator can interact with a smartphone screen as human users, and determine subsequent actions to fulfill given instructions. Our findings demonstrate that large multimodal models (LMMs), specifically GPT-4V, excel in zero-shot GUI navigation through its advanced screen interpretation, action reasoning, and precise action localization capabilities. We first benchmark MM-Navigator on our collected iOS screen dataset. According to human assessments, the system exhibited a 91\% accuracy rate in generating reasonable action descriptions and a 75\% accuracy rate in executing the correct actions for single-step instructions on iOS. Additionally, we evaluate the model on a subset of an Android screen navigation dataset, where the model outperforms previous GUI navigators in a zero-shot fashion. Our benchmark and detailed analyses aim to lay a robust groundwork for future research into the GUI navigation task. The project page is at https://github.com/zzxslp/MM-Navigator.
PDF151December 15, 2024