ChatPaper.aiChatPaper

GUI Odyssey: Обширный набор данных для навигации по графическому интерфейсу пользователя между приложениями на мобильных устройствах

GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices

June 12, 2024
Авторы: Quanfeng Lu, Wenqi Shao, Zitao Liu, Fanqing Meng, Boxuan Li, Botong Chen, Siyuan Huang, Kaipeng Zhang, Yu Qiao, Ping Luo
cs.AI

Аннотация

Пользователи смартфонов часто перемещаются между несколькими приложениями (приложениями), чтобы выполнить задачи, такие как обмен контентом между платформами социальных медиа. Агенты автономной навигации графического пользовательского интерфейса (GUI) могут улучшить пользовательский опыт в области коммуникации, развлечений и продуктивности, оптимизируя рабочие процессы и уменьшая ручное вмешательство. Однако ранее созданные агенты GUI обучались на наборах данных, включающих простые задачи, которые можно выполнить в одном приложении, что приводило к низкой производительности в навигации между приложениями. Для решения этой проблемы мы представляем GUI Odyssey, обширный набор данных для обучения и оценки агентов навигации между приложениями. GUI Odyssey состоит из 7 735 эпизодов с 6 мобильных устройств, охватывающих 6 типов задач между приложениями, 201 приложение и 1,4K комбинаций приложений. Используя GUI Odyssey, мы разработали OdysseyAgent, мультимодального агента навигации между приложениями путем настройки модели Qwen-VL с модулем повторного выбора истории. Обширные эксперименты демонстрируют превосходство OdysseyAgent по точности по сравнению с существующими моделями. Например, OdysseyAgent превосходит настроенную модель Qwen-VL и нулевую модель GPT-4V на 1,44\% и 55,49\% точности в пределах домена, и на 2,29\% и 48,14\% точности вне домена в среднем. Набор данных и код будут опубликованы на https://github.com/OpenGVLab/GUI-Odyssey.
English
Smartphone users often navigate across multiple applications (apps) to complete tasks such as sharing content between social media platforms. Autonomous Graphical User Interface (GUI) navigation agents can enhance user experience in communication, entertainment, and productivity by streamlining workflows and reducing manual intervention. However, prior GUI agents often trained with datasets comprising simple tasks that can be completed within a single app, leading to poor performance in cross-app navigation. To address this problem, we introduce GUI Odyssey, a comprehensive dataset for training and evaluating cross-app navigation agents. GUI Odyssey consists of 7,735 episodes from 6 mobile devices, spanning 6 types of cross-app tasks, 201 apps, and 1.4K app combos. Leveraging GUI Odyssey, we developed OdysseyAgent, a multimodal cross-app navigation agent by fine-tuning the Qwen-VL model with a history resampling module. Extensive experiments demonstrate OdysseyAgent's superior accuracy compared to existing models. For instance, OdysseyAgent surpasses fine-tuned Qwen-VL and zero-shot GPT-4V by 1.44\% and 55.49\% in-domain accuracy, and 2.29\% and 48.14\% out-of-domain accuracy on average. The dataset and code will be released in https://github.com/OpenGVLab/GUI-Odyssey.

Summary

AI-Generated Summary

PDF261December 6, 2024