GUI Odyssey: Een Uitgebreide Dataset voor Cross-App GUI-navigatie op Mobiele Apparaten
GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices
June 12, 2024
Auteurs: Quanfeng Lu, Wenqi Shao, Zitao Liu, Fanqing Meng, Boxuan Li, Botong Chen, Siyuan Huang, Kaipeng Zhang, Yu Qiao, Ping Luo
cs.AI
Samenvatting
Smartphonegebruikers navigeren vaak tussen meerdere applicaties (apps) om taken uit te voeren, zoals het delen van inhoud tussen sociale mediaplatforms. Autonome Grafische Gebruikersinterface (GUI)-navigatieagenten kunnen de gebruikerservaring op het gebied van communicatie, entertainment en productiviteit verbeteren door workflows te stroomlijnen en handmatige interventie te verminderen. Eerdere GUI-agenten werden echter vaak getraind met datasets die eenvoudige taken bevatten die binnen één app kunnen worden voltooid, wat leidt tot slechte prestaties bij navigatie tussen apps. Om dit probleem aan te pakken, introduceren we GUI Odyssey, een uitgebreide dataset voor het trainen en evalueren van navigatieagenten tussen apps. GUI Odyssey bestaat uit 7.735 episodes van 6 mobiele apparaten, die 6 soorten taken tussen apps, 201 apps en 1,4K app-combinaties omvatten. Met behulp van GUI Odyssey ontwikkelden we OdysseyAgent, een multimodale navigatieagent tussen apps, door het Qwen-VL-model te fine-tunen met een geschiedenisresamplingmodule. Uitgebreide experimenten tonen de superieure nauwkeurigheid van OdysseyAgent aan in vergelijking met bestaande modellen. Zo overtreft OdysseyAgent het gefinetunede Qwen-VL en zero-shot GPT-4V gemiddeld met 1,44% en 55,49% in-domein nauwkeurigheid, en met 2,29% en 48,14% out-of-domein nauwkeurigheid. De dataset en code zullen worden vrijgegeven op https://github.com/OpenGVLab/GUI-Odyssey.
English
Smartphone users often navigate across multiple applications (apps) to
complete tasks such as sharing content between social media platforms.
Autonomous Graphical User Interface (GUI) navigation agents can enhance user
experience in communication, entertainment, and productivity by streamlining
workflows and reducing manual intervention. However, prior GUI agents often
trained with datasets comprising simple tasks that can be completed within a
single app, leading to poor performance in cross-app navigation. To address
this problem, we introduce GUI Odyssey, a comprehensive dataset for training
and evaluating cross-app navigation agents. GUI Odyssey consists of 7,735
episodes from 6 mobile devices, spanning 6 types of cross-app tasks, 201 apps,
and 1.4K app combos. Leveraging GUI Odyssey, we developed OdysseyAgent, a
multimodal cross-app navigation agent by fine-tuning the Qwen-VL model with a
history resampling module. Extensive experiments demonstrate OdysseyAgent's
superior accuracy compared to existing models. For instance, OdysseyAgent
surpasses fine-tuned Qwen-VL and zero-shot GPT-4V by 1.44\% and 55.49\%
in-domain accuracy, and 2.29\% and 48.14\% out-of-domain accuracy on average.
The dataset and code will be released in
https://github.com/OpenGVLab/GUI-Odyssey.