ChatPaper.aiChatPaper

GPT-4V au pays des merveilles : Modèles multimodaux de grande envergure pour la navigation zéro-shot sur les interfaces graphiques de smartphones

GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation

November 13, 2023
Auteurs: An Yan, Zhengyuan Yang, Wanrong Zhu, Kevin Lin, Linjie Li, Jianfeng Wang, Jianwei Yang, Yiwu Zhong, Julian McAuley, Jianfeng Gao, Zicheng Liu, Lijuan Wang
cs.AI

Résumé

Nous présentons MM-Navigator, un agent basé sur GPT-4V pour la tâche de navigation dans l’interface graphique (GUI) des smartphones. MM-Navigator peut interagir avec l’écran d’un smartphone comme le feraient des utilisateurs humains, et déterminer les actions ultérieures nécessaires pour accomplir des instructions données. Nos résultats démontrent que les grands modèles multimodaux (LMMs), en particulier GPT-4V, excellent dans la navigation zéro-shot des GUI grâce à leurs capacités avancées d’interprétation d’écran, de raisonnement sur les actions et de localisation précise des actions. Nous avons d’abord évalué MM-Navigator sur notre ensemble de données d’écrans iOS collecté. Selon les évaluations humaines, le système a atteint un taux de précision de 91 % dans la génération de descriptions d’actions raisonnables et de 75 % dans l’exécution des actions correctes pour des instructions à une étape sur iOS. De plus, nous avons évalué le modèle sur un sous-ensemble d’un ensemble de données de navigation sur écran Android, où le modèle surpasse les navigateurs GUI précédents en mode zéro-shot. Notre benchmark et nos analyses détaillées visent à établir une base solide pour les recherches futures sur la tâche de navigation dans les GUI. La page du projet est disponible à l’adresse suivante : https://github.com/zzxslp/MM-Navigator.
English
We present MM-Navigator, a GPT-4V-based agent for the smartphone graphical user interface (GUI) navigation task. MM-Navigator can interact with a smartphone screen as human users, and determine subsequent actions to fulfill given instructions. Our findings demonstrate that large multimodal models (LMMs), specifically GPT-4V, excel in zero-shot GUI navigation through its advanced screen interpretation, action reasoning, and precise action localization capabilities. We first benchmark MM-Navigator on our collected iOS screen dataset. According to human assessments, the system exhibited a 91\% accuracy rate in generating reasonable action descriptions and a 75\% accuracy rate in executing the correct actions for single-step instructions on iOS. Additionally, we evaluate the model on a subset of an Android screen navigation dataset, where the model outperforms previous GUI navigators in a zero-shot fashion. Our benchmark and detailed analyses aim to lay a robust groundwork for future research into the GUI navigation task. The project page is at https://github.com/zzxslp/MM-Navigator.
PDF151December 15, 2024