GPT-4V nel Paese delle Meraviglie: Modelli Multimodali di Grande Scala per la Navigazione Zero-Shot su Interfacce Grafiche di Smartphone
GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation
November 13, 2023
Autori: An Yan, Zhengyuan Yang, Wanrong Zhu, Kevin Lin, Linjie Li, Jianfeng Wang, Jianwei Yang, Yiwu Zhong, Julian McAuley, Jianfeng Gao, Zicheng Liu, Lijuan Wang
cs.AI
Abstract
Presentiamo MM-Navigator, un agente basato su GPT-4V per il compito di navigazione dell'interfaccia grafica utente (GUI) degli smartphone. MM-Navigator può interagire con lo schermo di uno smartphone come farebbero gli utenti umani e determinare le azioni successive per soddisfare le istruzioni fornite. I nostri risultati dimostrano che i grandi modelli multimodali (LMM), in particolare GPT-4V, eccellono nella navigazione GUI in modalità zero-shot grazie alle sue avanzate capacità di interpretazione dello schermo, ragionamento sulle azioni e localizzazione precisa delle azioni. Inizialmente, abbiamo valutato MM-Navigator sul nostro dataset di schermate iOS raccolto. Secondo le valutazioni umane, il sistema ha mostrato un tasso di accuratezza del 91% nella generazione di descrizioni di azioni ragionevoli e un tasso di accuratezza del 75% nell'esecuzione delle azioni corrette per istruzioni a singolo passaggio su iOS. Inoltre, abbiamo valutato il modello su un sottoinsieme di un dataset di navigazione su schermate Android, dove il modello ha superato i precedenti navigatori GUI in modalità zero-shot. Il nostro benchmark e le analisi dettagliate mirano a gettare una solida base per future ricerche sul compito di navigazione GUI. La pagina del progetto è disponibile all'indirizzo https://github.com/zzxslp/MM-Navigator.
English
We present MM-Navigator, a GPT-4V-based agent for the smartphone graphical
user interface (GUI) navigation task. MM-Navigator can interact with a
smartphone screen as human users, and determine subsequent actions to fulfill
given instructions. Our findings demonstrate that large multimodal models
(LMMs), specifically GPT-4V, excel in zero-shot GUI navigation through its
advanced screen interpretation, action reasoning, and precise action
localization capabilities. We first benchmark MM-Navigator on our collected iOS
screen dataset. According to human assessments, the system exhibited a 91\%
accuracy rate in generating reasonable action descriptions and a 75\% accuracy
rate in executing the correct actions for single-step instructions on iOS.
Additionally, we evaluate the model on a subset of an Android screen navigation
dataset, where the model outperforms previous GUI navigators in a zero-shot
fashion. Our benchmark and detailed analyses aim to lay a robust groundwork for
future research into the GUI navigation task. The project page is at
https://github.com/zzxslp/MM-Navigator.