GPT-4V nel Paese delle Meraviglie: Modelli Multimodali di Grande Scala per la Navigazione Zero-Shot su Interfacce Grafiche di Smartphone

Abstract

Presentiamo MM-Navigator, un agente basato su GPT-4V per il compito di navigazione dell'interfaccia grafica utente (GUI) degli smartphone. MM-Navigator può interagire con lo schermo di uno smartphone come farebbero gli utenti umani e determinare le azioni successive per soddisfare le istruzioni fornite. I nostri risultati dimostrano che i grandi modelli multimodali (LMM), in particolare GPT-4V, eccellono nella navigazione GUI in modalità zero-shot grazie alle sue avanzate capacità di interpretazione dello schermo, ragionamento sulle azioni e localizzazione precisa delle azioni. Inizialmente, abbiamo valutato MM-Navigator sul nostro dataset di schermate iOS raccolto. Secondo le valutazioni umane, il sistema ha mostrato un tasso di accuratezza del 91% nella generazione di descrizioni di azioni ragionevoli e un tasso di accuratezza del 75% nell'esecuzione delle azioni corrette per istruzioni a singolo passaggio su iOS. Inoltre, abbiamo valutato il modello su un sottoinsieme di un dataset di navigazione su schermate Android, dove il modello ha superato i precedenti navigatori GUI in modalità zero-shot. Il nostro benchmark e le analisi dettagliate mirano a gettare una solida base per future ricerche sul compito di navigazione GUI. La pagina del progetto è disponibile all'indirizzo https://github.com/zzxslp/MM-Navigator.

English

We present MM-Navigator, a GPT-4V-based agent for the smartphone graphical user interface (GUI) navigation task. MM-Navigator can interact with a smartphone screen as human users, and determine subsequent actions to fulfill given instructions. Our findings demonstrate that large multimodal models (LMMs), specifically GPT-4V, excel in zero-shot GUI navigation through its advanced screen interpretation, action reasoning, and precise action localization capabilities. We first benchmark MM-Navigator on our collected iOS screen dataset. According to human assessments, the system exhibited a 91\% accuracy rate in generating reasonable action descriptions and a 75\% accuracy rate in executing the correct actions for single-step instructions on iOS. Additionally, we evaluate the model on a subset of an Android screen navigation dataset, where the model outperforms previous GUI navigators in a zero-shot fashion. Our benchmark and detailed analyses aim to lay a robust groundwork for future research into the GUI navigation task. The project page is at https://github.com/zzxslp/MM-Navigator.

GPT-4V nel Paese delle Meraviglie: Modelli Multimodali di Grande Scala per la Navigazione Zero-Shot su Interfacce Grafiche di Smartphone

GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation

Abstract

Support