GPT-4V im Wunderland: Große multimodale Modelle für die Null-Shot-Navigation auf Smartphone-GUIs

papers.abstract

Wir stellen MM-Navigator vor, einen auf GPT-4V basierenden Agenten für die Aufgabe der Navigation durch grafische Benutzeroberflächen (GUIs) auf Smartphones. MM-Navigator kann mit einem Smartphone-Bildschirm interagieren, wie es menschliche Benutzer tun, und nachfolgende Aktionen bestimmen, um gegebene Anweisungen zu erfüllen. Unsere Ergebnisse zeigen, dass große multimodale Modelle (LMMs), insbesondere GPT-4V, in der Zero-Shot-GUI-Navigation durch ihre fortgeschrittenen Fähigkeiten zur Bildschirminterpretation, Handlungslogik und präzisen Handlungslokalisierung hervorragend abschneiden. Zunächst benchmarken wir MM-Navigator auf unserem gesammelten iOS-Bildschirmdatensatz. Laut menschlicher Bewertungen zeigte das System eine Genauigkeitsrate von 91 % bei der Erzeugung sinnvoller Aktionsbeschreibungen und eine Genauigkeitsrate von 75 % bei der Ausführung der korrekten Aktionen für Einzelschritt-Anweisungen auf iOS. Darüber hinaus evaluieren wir das Modell auf einem Teil eines Android-Bildschirmnavigationsdatensatzes, wo das Modell frühere GUI-Navigatoren in einer Zero-Shot-Weise übertrifft. Unser Benchmark und die detaillierten Analysen sollen eine solide Grundlage für zukünftige Forschungen zur GUI-Navigationsaufgabe schaffen. Die Projektseite befindet sich unter https://github.com/zzxslp/MM-Navigator.

English

We present MM-Navigator, a GPT-4V-based agent for the smartphone graphical user interface (GUI) navigation task. MM-Navigator can interact with a smartphone screen as human users, and determine subsequent actions to fulfill given instructions. Our findings demonstrate that large multimodal models (LMMs), specifically GPT-4V, excel in zero-shot GUI navigation through its advanced screen interpretation, action reasoning, and precise action localization capabilities. We first benchmark MM-Navigator on our collected iOS screen dataset. According to human assessments, the system exhibited a 91\% accuracy rate in generating reasonable action descriptions and a 75\% accuracy rate in executing the correct actions for single-step instructions on iOS. Additionally, we evaluate the model on a subset of an Android screen navigation dataset, where the model outperforms previous GUI navigators in a zero-shot fashion. Our benchmark and detailed analyses aim to lay a robust groundwork for future research into the GUI navigation task. The project page is at https://github.com/zzxslp/MM-Navigator.

GPT-4V im Wunderland: Große multimodale Modelle für die Null-Shot-Navigation auf Smartphone-GUIs

GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation

papers.abstract

Support