GUI Odyssey : Un ensemble de données complet pour la navigation inter-applications via les interfaces graphiques sur les appareils mobiles
GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices
June 12, 2024
Auteurs: Quanfeng Lu, Wenqi Shao, Zitao Liu, Fanqing Meng, Boxuan Li, Botong Chen, Siyuan Huang, Kaipeng Zhang, Yu Qiao, Ping Luo
cs.AI
Résumé
Les utilisateurs de smartphones naviguent souvent entre plusieurs applications (apps) pour accomplir des tâches telles que le partage de contenu entre différentes plateformes de médias sociaux. Les agents autonomes de navigation d'interface graphique (GUI) peuvent améliorer l'expérience utilisateur dans les domaines de la communication, du divertissement et de la productivité en rationalisant les flux de travail et en réduisant l'intervention manuelle. Cependant, les agents GUI précédents étaient souvent entraînés avec des ensembles de données comprenant des tâches simples pouvant être accomplies dans une seule application, ce qui entraînait de mauvaises performances en navigation inter-applications. Pour résoudre ce problème, nous présentons GUI Odyssey, un ensemble de données complet pour l'entraînement et l'évaluation des agents de navigation inter-applications. GUI Odyssey se compose de 7 735 épisodes provenant de 6 appareils mobiles, couvrant 6 types de tâches inter-applications, 201 applications et 1,4K combinaisons d'applications. En exploitant GUI Odyssey, nous avons développé OdysseyAgent, un agent de navigation inter-applications multimodal, en affinant le modèle Qwen-VL avec un module de rééchantillonnage de l'historique. Des expériences approfondies démontrent la précision supérieure d'OdysseyAgent par rapport aux modèles existants. Par exemple, OdysseyAgent surpasse Qwen-VL affiné et GPT-4V en mode zero-shot de 1,44 % et 55,49 % en précision intra-domaine, et de 2,29 % et 48,14 % en précision extra-domaine en moyenne. L'ensemble de données et le code seront disponibles sur https://github.com/OpenGVLab/GUI-Odyssey.
English
Smartphone users often navigate across multiple applications (apps) to
complete tasks such as sharing content between social media platforms.
Autonomous Graphical User Interface (GUI) navigation agents can enhance user
experience in communication, entertainment, and productivity by streamlining
workflows and reducing manual intervention. However, prior GUI agents often
trained with datasets comprising simple tasks that can be completed within a
single app, leading to poor performance in cross-app navigation. To address
this problem, we introduce GUI Odyssey, a comprehensive dataset for training
and evaluating cross-app navigation agents. GUI Odyssey consists of 7,735
episodes from 6 mobile devices, spanning 6 types of cross-app tasks, 201 apps,
and 1.4K app combos. Leveraging GUI Odyssey, we developed OdysseyAgent, a
multimodal cross-app navigation agent by fine-tuning the Qwen-VL model with a
history resampling module. Extensive experiments demonstrate OdysseyAgent's
superior accuracy compared to existing models. For instance, OdysseyAgent
surpasses fine-tuned Qwen-VL and zero-shot GPT-4V by 1.44\% and 55.49\%
in-domain accuracy, and 2.29\% and 48.14\% out-of-domain accuracy on average.
The dataset and code will be released in
https://github.com/OpenGVLab/GUI-Odyssey.Summary
AI-Generated Summary