ChatPaper.aiChatPaper

GUI Odyssey: Un Dataset Completo per la Navigazione Inter-App su Interfacce Grafiche su Dispositivi Mobili

GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices

June 12, 2024
Autori: Quanfeng Lu, Wenqi Shao, Zitao Liu, Fanqing Meng, Boxuan Li, Botong Chen, Siyuan Huang, Kaipeng Zhang, Yu Qiao, Ping Luo
cs.AI

Abstract

Gli utenti di smartphone spesso navigano tra più applicazioni (app) per completare attività come la condivisione di contenuti tra piattaforme di social media. Gli agenti autonomi di navigazione dell'interfaccia grafica utente (GUI) possono migliorare l'esperienza dell'utente in ambiti come la comunicazione, l'intrattenimento e la produttività, semplificando i flussi di lavoro e riducendo l'intervento manuale. Tuttavia, i precedenti agenti GUI sono spesso stati addestrati con dataset composti da attività semplici che possono essere completate all'interno di una singola app, portando a scarse prestazioni nella navigazione tra app. Per affrontare questo problema, introduciamo GUI Odyssey, un dataset completo per l'addestramento e la valutazione di agenti di navigazione tra app. GUI Odyssey è composto da 7.735 episodi provenienti da 6 dispositivi mobili, che coprono 6 tipi di attività tra app, 201 app e 1.4K combinazioni di app. Utilizzando GUI Odyssey, abbiamo sviluppato OdysseyAgent, un agente di navigazione tra app multimodale, ottimizzando il modello Qwen-VL con un modulo di ricampionamento della cronologia. Esperimenti estensivi dimostrano la superiorità di OdysseyAgent in termini di accuratezza rispetto ai modelli esistenti. Ad esempio, OdysseyAgent supera Qwen-VL ottimizzato e GPT-4V zero-shot rispettivamente del 1,44% e 55,49% in accuratezza in-domain, e del 2,29% e 48,14% in accuratezza out-of-domain, in media. Il dataset e il codice saranno rilasciati su https://github.com/OpenGVLab/GUI-Odyssey.
English
Smartphone users often navigate across multiple applications (apps) to complete tasks such as sharing content between social media platforms. Autonomous Graphical User Interface (GUI) navigation agents can enhance user experience in communication, entertainment, and productivity by streamlining workflows and reducing manual intervention. However, prior GUI agents often trained with datasets comprising simple tasks that can be completed within a single app, leading to poor performance in cross-app navigation. To address this problem, we introduce GUI Odyssey, a comprehensive dataset for training and evaluating cross-app navigation agents. GUI Odyssey consists of 7,735 episodes from 6 mobile devices, spanning 6 types of cross-app tasks, 201 apps, and 1.4K app combos. Leveraging GUI Odyssey, we developed OdysseyAgent, a multimodal cross-app navigation agent by fine-tuning the Qwen-VL model with a history resampling module. Extensive experiments demonstrate OdysseyAgent's superior accuracy compared to existing models. For instance, OdysseyAgent surpasses fine-tuned Qwen-VL and zero-shot GPT-4V by 1.44\% and 55.49\% in-domain accuracy, and 2.29\% and 48.14\% out-of-domain accuracy on average. The dataset and code will be released in https://github.com/OpenGVLab/GUI-Odyssey.
PDF251January 17, 2026