GPT-4V en el País de las Maravillas: Modelos Multimodales de Gran Escala para la Navegación Cero-Shot en Interfaces Gráficas de Smartphones
GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation
November 13, 2023
Autores: An Yan, Zhengyuan Yang, Wanrong Zhu, Kevin Lin, Linjie Li, Jianfeng Wang, Jianwei Yang, Yiwu Zhong, Julian McAuley, Jianfeng Gao, Zicheng Liu, Lijuan Wang
cs.AI
Resumen
Presentamos MM-Navigator, un agente basado en GPT-4V para la tarea de navegación en interfaces gráficas de usuario (GUI) de smartphones. MM-Navigator puede interactuar con la pantalla de un smartphone como lo haría un usuario humano, y determinar las acciones subsiguientes para cumplir con las instrucciones dadas. Nuestros hallazgos demuestran que los modelos multimodales de gran escala (LMMs), específicamente GPT-4V, sobresalen en la navegación GUI en modo zero-shot gracias a sus avanzadas capacidades de interpretación de pantalla, razonamiento de acciones y localización precisa de acciones. Primero, evaluamos MM-Navigator en nuestro conjunto de datos de pantallas iOS recopilado. Según evaluaciones humanas, el sistema mostró una tasa de precisión del 91% en la generación de descripciones de acciones razonables y un 75% de precisión en la ejecución de las acciones correctas para instrucciones de un solo paso en iOS. Además, evaluamos el modelo en un subconjunto de un conjunto de datos de navegación en pantallas Android, donde el modelo superó a los navegadores GUI anteriores en un enfoque zero-shot. Nuestro benchmark y análisis detallados buscan sentar una base sólida para futuras investigaciones en la tarea de navegación GUI. La página del proyecto se encuentra en https://github.com/zzxslp/MM-Navigator.
English
We present MM-Navigator, a GPT-4V-based agent for the smartphone graphical
user interface (GUI) navigation task. MM-Navigator can interact with a
smartphone screen as human users, and determine subsequent actions to fulfill
given instructions. Our findings demonstrate that large multimodal models
(LMMs), specifically GPT-4V, excel in zero-shot GUI navigation through its
advanced screen interpretation, action reasoning, and precise action
localization capabilities. We first benchmark MM-Navigator on our collected iOS
screen dataset. According to human assessments, the system exhibited a 91\%
accuracy rate in generating reasonable action descriptions and a 75\% accuracy
rate in executing the correct actions for single-step instructions on iOS.
Additionally, we evaluate the model on a subset of an Android screen navigation
dataset, where the model outperforms previous GUI navigators in a zero-shot
fashion. Our benchmark and detailed analyses aim to lay a robust groundwork for
future research into the GUI navigation task. The project page is at
https://github.com/zzxslp/MM-Navigator.