ChatPaper.aiChatPaper

GUI Odyssey: Um Conjunto de Dados Abrangente para Navegação Transversal em Interfaces Gráficas de Aplicativos em Dispositivos Móveis

GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices

June 12, 2024
Autores: Quanfeng Lu, Wenqi Shao, Zitao Liu, Fanqing Meng, Boxuan Li, Botong Chen, Siyuan Huang, Kaipeng Zhang, Yu Qiao, Ping Luo
cs.AI

Resumo

Usuários de smartphones frequentemente navegam entre múltiplos aplicativos (apps) para realizar tarefas, como compartilhar conteúdo entre plataformas de mídia social. Agentes autônomos de navegação em Interface Gráfica do Usuário (GUI) podem aprimorar a experiência do usuário em comunicação, entretenimento e produtividade, otimizando fluxos de trabalho e reduzindo a intervenção manual. No entanto, agentes de GUI anteriores frequentemente foram treinados com conjuntos de dados compostos por tarefas simples que podem ser concluídas dentro de um único aplicativo, resultando em desempenho insatisfatório na navegação entre aplicativos. Para resolver esse problema, introduzimos o GUI Odyssey, um conjunto de dados abrangente para treinar e avaliar agentes de navegação entre aplicativos. O GUI Odyssey consiste em 7.735 episódios de 6 dispositivos móveis, abrangendo 6 tipos de tarefas entre aplicativos, 201 apps e 1,4K combinações de apps. Utilizando o GUI Odyssey, desenvolvemos o OdysseyAgent, um agente de navegação entre aplicativos multimodal, ajustando o modelo Qwen-VL com um módulo de reamostragem de histórico. Experimentos extensivos demonstram a precisão superior do OdysseyAgent em comparação com modelos existentes. Por exemplo, o OdysseyAgent supera o Qwen-VL ajustado e o GPT-4V zero-shot em 1,44% e 55,49% de precisão dentro do domínio, e 2,29% e 48,14% de precisão fora do domínio, em média. O conjunto de dados e o código serão disponibilizados em https://github.com/OpenGVLab/GUI-Odyssey.
English
Smartphone users often navigate across multiple applications (apps) to complete tasks such as sharing content between social media platforms. Autonomous Graphical User Interface (GUI) navigation agents can enhance user experience in communication, entertainment, and productivity by streamlining workflows and reducing manual intervention. However, prior GUI agents often trained with datasets comprising simple tasks that can be completed within a single app, leading to poor performance in cross-app navigation. To address this problem, we introduce GUI Odyssey, a comprehensive dataset for training and evaluating cross-app navigation agents. GUI Odyssey consists of 7,735 episodes from 6 mobile devices, spanning 6 types of cross-app tasks, 201 apps, and 1.4K app combos. Leveraging GUI Odyssey, we developed OdysseyAgent, a multimodal cross-app navigation agent by fine-tuning the Qwen-VL model with a history resampling module. Extensive experiments demonstrate OdysseyAgent's superior accuracy compared to existing models. For instance, OdysseyAgent surpasses fine-tuned Qwen-VL and zero-shot GPT-4V by 1.44\% and 55.49\% in-domain accuracy, and 2.29\% and 48.14\% out-of-domain accuracy on average. The dataset and code will be released in https://github.com/OpenGVLab/GUI-Odyssey.
PDF251December 6, 2024