GPT-4V en el País de las Maravillas: Modelos Multimodales de Gran Escala para la Navegación Cero-Shot en Interfaces Gráficas de Smartphones

Resumen

Presentamos MM-Navigator, un agente basado en GPT-4V para la tarea de navegación en interfaces gráficas de usuario (GUI) de smartphones. MM-Navigator puede interactuar con la pantalla de un smartphone como lo haría un usuario humano, y determinar las acciones subsiguientes para cumplir con las instrucciones dadas. Nuestros hallazgos demuestran que los modelos multimodales de gran escala (LMMs), específicamente GPT-4V, sobresalen en la navegación GUI en modo zero-shot gracias a sus avanzadas capacidades de interpretación de pantalla, razonamiento de acciones y localización precisa de acciones. Primero, evaluamos MM-Navigator en nuestro conjunto de datos de pantallas iOS recopilado. Según evaluaciones humanas, el sistema mostró una tasa de precisión del 91% en la generación de descripciones de acciones razonables y un 75% de precisión en la ejecución de las acciones correctas para instrucciones de un solo paso en iOS. Además, evaluamos el modelo en un subconjunto de un conjunto de datos de navegación en pantallas Android, donde el modelo superó a los navegadores GUI anteriores en un enfoque zero-shot. Nuestro benchmark y análisis detallados buscan sentar una base sólida para futuras investigaciones en la tarea de navegación GUI. La página del proyecto se encuentra en https://github.com/zzxslp/MM-Navigator.

English

We present MM-Navigator, a GPT-4V-based agent for the smartphone graphical user interface (GUI) navigation task. MM-Navigator can interact with a smartphone screen as human users, and determine subsequent actions to fulfill given instructions. Our findings demonstrate that large multimodal models (LMMs), specifically GPT-4V, excel in zero-shot GUI navigation through its advanced screen interpretation, action reasoning, and precise action localization capabilities. We first benchmark MM-Navigator on our collected iOS screen dataset. According to human assessments, the system exhibited a 91\% accuracy rate in generating reasonable action descriptions and a 75\% accuracy rate in executing the correct actions for single-step instructions on iOS. Additionally, we evaluate the model on a subset of an Android screen navigation dataset, where the model outperforms previous GUI navigators in a zero-shot fashion. Our benchmark and detailed analyses aim to lay a robust groundwork for future research into the GUI navigation task. The project page is at https://github.com/zzxslp/MM-Navigator.

GPT-4V en el País de las Maravillas: Modelos Multimodales de Gran Escala para la Navegación Cero-Shot en Interfaces Gráficas de Smartphones

GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation

Resumen

Support