ChatPaper.aiChatPaper

GUI Odyssey: 모바일 기기에서의 크로스 앱 GUI 탐색을 위한 포괄적인 데이터셋

GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices

June 12, 2024
저자: Quanfeng Lu, Wenqi Shao, Zitao Liu, Fanqing Meng, Boxuan Li, Botong Chen, Siyuan Huang, Kaipeng Zhang, Yu Qiao, Ping Luo
cs.AI

초록

스마트폰 사용자들은 종종 소셜 미디어 플랫폼 간 콘텐츠 공유와 같은 작업을 완료하기 위해 여러 애플리케이션(앱)을 넘나들며 이동합니다. 자율 그래픽 사용자 인터페이스(GUI) 탐색 에이전트는 워크플로우를 간소화하고 수동 개입을 줄여 커뮤니케이션, 엔터테인먼트, 생산성 분야에서 사용자 경험을 향상시킬 수 있습니다. 그러나 기존 GUI 에이전트는 주로 단일 앱 내에서 완료할 수 있는 간단한 작업으로 구성된 데이터셋으로 학습되어, 앱 간 탐색에서 낮은 성능을 보이는 경우가 많았습니다. 이 문제를 해결하기 위해, 우리는 앱 간 탐색 에이전트를 훈련하고 평가하기 위한 포괄적인 데이터셋인 GUI Odyssey를 소개합니다. GUI Odyssey는 6개의 모바일 기기에서 수집된 7,735개의 에피소드로 구성되며, 6가지 유형의 앱 간 작업, 201개의 앱, 그리고 1.4K개의 앱 조합을 포함합니다. GUI Odyssey를 활용하여, 우리는 Qwen-VL 모델을 히스토리 리샘플링 모듈로 미세 조정한 다중 모달 앱 간 탐색 에이전트인 OdysseyAgent를 개발했습니다. 광범위한 실험을 통해 OdysseyAgent가 기존 모델들에 비해 우수한 정확도를 보임을 입증했습니다. 예를 들어, OdysseyAgent는 미세 조정된 Qwen-VL과 제로샷 GPT-4V보다 각각 1.44%와 55.49%의 도메인 내 정확도, 그리고 2.29%와 48.14%의 도메인 외 정확도를 평균적으로 앞섰습니다. 데이터셋과 코드는 https://github.com/OpenGVLab/GUI-Odyssey에서 공개될 예정입니다.
English
Smartphone users often navigate across multiple applications (apps) to complete tasks such as sharing content between social media platforms. Autonomous Graphical User Interface (GUI) navigation agents can enhance user experience in communication, entertainment, and productivity by streamlining workflows and reducing manual intervention. However, prior GUI agents often trained with datasets comprising simple tasks that can be completed within a single app, leading to poor performance in cross-app navigation. To address this problem, we introduce GUI Odyssey, a comprehensive dataset for training and evaluating cross-app navigation agents. GUI Odyssey consists of 7,735 episodes from 6 mobile devices, spanning 6 types of cross-app tasks, 201 apps, and 1.4K app combos. Leveraging GUI Odyssey, we developed OdysseyAgent, a multimodal cross-app navigation agent by fine-tuning the Qwen-VL model with a history resampling module. Extensive experiments demonstrate OdysseyAgent's superior accuracy compared to existing models. For instance, OdysseyAgent surpasses fine-tuned Qwen-VL and zero-shot GPT-4V by 1.44\% and 55.49\% in-domain accuracy, and 2.29\% and 48.14\% out-of-domain accuracy on average. The dataset and code will be released in https://github.com/OpenGVLab/GUI-Odyssey.

Summary

AI-Generated Summary

PDF261December 6, 2024