GPT-4V no País das Maravilhas: Modelos Multimodais de Grande Escala para Navegação Zero-Shot em Interfaces Gráficas de Smartphones
GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation
November 13, 2023
Autores: An Yan, Zhengyuan Yang, Wanrong Zhu, Kevin Lin, Linjie Li, Jianfeng Wang, Jianwei Yang, Yiwu Zhong, Julian McAuley, Jianfeng Gao, Zicheng Liu, Lijuan Wang
cs.AI
Resumo
Apresentamos o MM-Navigator, um agente baseado no GPT-4V para a tarefa de navegação em interfaces gráficas de usuário (GUI) de smartphones. O MM-Navigator pode interagir com a tela de um smartphone como usuários humanos e determinar ações subsequentes para cumprir instruções dadas. Nossos resultados demonstram que modelos multimodais de grande escala (LMMs), especificamente o GPT-4V, se destacam na navegação zero-shot em GUI por meio de suas capacidades avançadas de interpretação de tela, raciocínio de ações e localização precisa de ações. Primeiro, avaliamos o MM-Navigator em nosso conjunto de dados de telas iOS coletado. De acordo com avaliações humanas, o sistema exibiu uma taxa de precisão de 91% na geração de descrições de ações razoáveis e uma taxa de precisão de 75% na execução das ações corretas para instruções de etapa única no iOS. Além disso, avaliamos o modelo em um subconjunto de um conjunto de dados de navegação em telas Android, onde o modelo supera navegadores de GUI anteriores de forma zero-shot. Nossa avaliação e análises detalhadas visam estabelecer uma base sólida para pesquisas futuras na tarefa de navegação em GUI. A página do projeto está disponível em https://github.com/zzxslp/MM-Navigator.
English
We present MM-Navigator, a GPT-4V-based agent for the smartphone graphical
user interface (GUI) navigation task. MM-Navigator can interact with a
smartphone screen as human users, and determine subsequent actions to fulfill
given instructions. Our findings demonstrate that large multimodal models
(LMMs), specifically GPT-4V, excel in zero-shot GUI navigation through its
advanced screen interpretation, action reasoning, and precise action
localization capabilities. We first benchmark MM-Navigator on our collected iOS
screen dataset. According to human assessments, the system exhibited a 91\%
accuracy rate in generating reasonable action descriptions and a 75\% accuracy
rate in executing the correct actions for single-step instructions on iOS.
Additionally, we evaluate the model on a subset of an Android screen navigation
dataset, where the model outperforms previous GUI navigators in a zero-shot
fashion. Our benchmark and detailed analyses aim to lay a robust groundwork for
future research into the GUI navigation task. The project page is at
https://github.com/zzxslp/MM-Navigator.