GUIオデッセイ:モバイルデバイスにおけるクロスアプリGUIナビゲーションのための包括的データセット
GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices
June 12, 2024
著者: Quanfeng Lu, Wenqi Shao, Zitao Liu, Fanqing Meng, Boxuan Li, Botong Chen, Siyuan Huang, Kaipeng Zhang, Yu Qiao, Ping Luo
cs.AI
要旨
スマートフォンユーザーは、ソーシャルメディアプラットフォーム間でコンテンツを共有するなどのタスクを完了するために、複数のアプリケーション(アプリ)をまたいで操作することが多い。自律的なグラフィカルユーザーインターフェース(GUI)ナビゲーションエージェントは、ワークフローを効率化し、手動介入を減らすことで、コミュニケーション、エンターテイメント、生産性におけるユーザーエクスペリエンスを向上させることができる。しかし、従来のGUIエージェントは、単一のアプリ内で完了できる単純なタスクを含むデータセットで訓練されることが多く、アプリ間ナビゲーションでのパフォーマンスが低いという問題があった。この問題を解決するため、我々はGUI Odysseyを導入する。GUI Odysseyは、アプリ間ナビゲーションエージェントの訓練と評価のための包括的なデータセットであり、6つのモバイルデバイスから7,735エピソード、6種類のアプリ間タスク、201のアプリ、1.4Kのアプリコンボを網羅している。GUI Odysseyを活用し、我々はQwen-VLモデルを履歴再サンプリングモジュールでファインチューニングしたマルチモーダルアプリ間ナビゲーションエージェントであるOdysseyAgentを開発した。大規模な実験により、OdysseyAgentが既存のモデルと比較して優れた精度を発揮することが示された。例えば、OdysseyAgentは、ファインチューニングされたQwen-VLおよびゼロショットGPT-4Vを、ドメイン内精度で1.44%および55.49%、ドメイン外精度で2.29%および48.14%上回った。データセットとコードはhttps://github.com/OpenGVLab/GUI-Odysseyで公開される予定である。
English
Smartphone users often navigate across multiple applications (apps) to
complete tasks such as sharing content between social media platforms.
Autonomous Graphical User Interface (GUI) navigation agents can enhance user
experience in communication, entertainment, and productivity by streamlining
workflows and reducing manual intervention. However, prior GUI agents often
trained with datasets comprising simple tasks that can be completed within a
single app, leading to poor performance in cross-app navigation. To address
this problem, we introduce GUI Odyssey, a comprehensive dataset for training
and evaluating cross-app navigation agents. GUI Odyssey consists of 7,735
episodes from 6 mobile devices, spanning 6 types of cross-app tasks, 201 apps,
and 1.4K app combos. Leveraging GUI Odyssey, we developed OdysseyAgent, a
multimodal cross-app navigation agent by fine-tuning the Qwen-VL model with a
history resampling module. Extensive experiments demonstrate OdysseyAgent's
superior accuracy compared to existing models. For instance, OdysseyAgent
surpasses fine-tuned Qwen-VL and zero-shot GPT-4V by 1.44\% and 55.49\%
in-domain accuracy, and 2.29\% and 48.14\% out-of-domain accuracy on average.
The dataset and code will be released in
https://github.com/OpenGVLab/GUI-Odyssey.Summary
AI-Generated Summary