GPT-4V im Wunderland: Große multimodale Modelle für die Null-Shot-Navigation auf Smartphone-GUIs
GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation
November 13, 2023
Autoren: An Yan, Zhengyuan Yang, Wanrong Zhu, Kevin Lin, Linjie Li, Jianfeng Wang, Jianwei Yang, Yiwu Zhong, Julian McAuley, Jianfeng Gao, Zicheng Liu, Lijuan Wang
cs.AI
Zusammenfassung
Wir stellen MM-Navigator vor, einen auf GPT-4V basierenden Agenten für die Aufgabe der Navigation durch grafische Benutzeroberflächen (GUIs) auf Smartphones. MM-Navigator kann mit einem Smartphone-Bildschirm interagieren, wie es menschliche Benutzer tun, und nachfolgende Aktionen bestimmen, um gegebene Anweisungen zu erfüllen. Unsere Ergebnisse zeigen, dass große multimodale Modelle (LMMs), insbesondere GPT-4V, in der Zero-Shot-GUI-Navigation durch ihre fortgeschrittenen Fähigkeiten zur Bildschirminterpretation, Handlungslogik und präzisen Handlungslokalisierung hervorragend abschneiden. Zunächst benchmarken wir MM-Navigator auf unserem gesammelten iOS-Bildschirmdatensatz. Laut menschlicher Bewertungen zeigte das System eine Genauigkeitsrate von 91 % bei der Erzeugung sinnvoller Aktionsbeschreibungen und eine Genauigkeitsrate von 75 % bei der Ausführung der korrekten Aktionen für Einzelschritt-Anweisungen auf iOS. Darüber hinaus evaluieren wir das Modell auf einem Teil eines Android-Bildschirmnavigationsdatensatzes, wo das Modell frühere GUI-Navigatoren in einer Zero-Shot-Weise übertrifft. Unser Benchmark und die detaillierten Analysen sollen eine solide Grundlage für zukünftige Forschungen zur GUI-Navigationsaufgabe schaffen. Die Projektseite befindet sich unter https://github.com/zzxslp/MM-Navigator.
English
We present MM-Navigator, a GPT-4V-based agent for the smartphone graphical
user interface (GUI) navigation task. MM-Navigator can interact with a
smartphone screen as human users, and determine subsequent actions to fulfill
given instructions. Our findings demonstrate that large multimodal models
(LMMs), specifically GPT-4V, excel in zero-shot GUI navigation through its
advanced screen interpretation, action reasoning, and precise action
localization capabilities. We first benchmark MM-Navigator on our collected iOS
screen dataset. According to human assessments, the system exhibited a 91\%
accuracy rate in generating reasonable action descriptions and a 75\% accuracy
rate in executing the correct actions for single-step instructions on iOS.
Additionally, we evaluate the model on a subset of an Android screen navigation
dataset, where the model outperforms previous GUI navigators in a zero-shot
fashion. Our benchmark and detailed analyses aim to lay a robust groundwork for
future research into the GUI navigation task. The project page is at
https://github.com/zzxslp/MM-Navigator.