GUI Odyssey: Ein umfassender Datensatz für die plattformübergreifende GUI-Navigation auf mobilen Geräten
GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices
June 12, 2024
Autoren: Quanfeng Lu, Wenqi Shao, Zitao Liu, Fanqing Meng, Boxuan Li, Botong Chen, Siyuan Huang, Kaipeng Zhang, Yu Qiao, Ping Luo
cs.AI
Zusammenfassung
Smartphone-Benutzer navigieren häufig über mehrere Anwendungen (Apps), um Aufgaben wie das Teilen von Inhalten zwischen sozialen Medien abzuschließen. Autonome grafische Benutzeroberflächen (GUI)-Navigationsagenten können die Benutzererfahrung in den Bereichen Kommunikation, Unterhaltung und Produktivität verbessern, indem sie Workflows optimieren und manuelle Eingriffe reduzieren. Bisher trainierten GUI-Agenten jedoch oft mit Datensätzen, die einfache Aufgaben umfassen, die innerhalb einer einzelnen App abgeschlossen werden können, was zu einer schlechten Leistung bei der Navigation zwischen Apps führt. Um dieses Problem zu lösen, stellen wir GUI Odyssey vor, einen umfassenden Datensatz zur Schulung und Bewertung von Navigationsagenten zwischen Apps. GUI Odyssey besteht aus 7.735 Episoden von 6 mobilen Geräten, die 6 Arten von Aufgaben zwischen Apps, 201 Apps und 1,4K App-Kombinationen umfassen. Unter Verwendung von GUI Odyssey haben wir OdysseyAgent entwickelt, einen multimodalen Navigationsagenten zwischen Apps durch Feinabstimmung des Qwen-VL-Modells mit einem History-Resampling-Modul. Umfangreiche Experimente zeigen die überlegene Genauigkeit von OdysseyAgent im Vergleich zu bestehenden Modellen. Beispielsweise übertrifft OdysseyAgent feinabgestimmtes Qwen-VL und zero-shot GPT-4V um 1,44\% bzw. 55,49\% in der Domänen-Genauigkeit und um 2,29\% bzw. 48,14\% außerhalb der Domäne im Durchschnitt. Der Datensatz und der Code werden auf https://github.com/OpenGVLab/GUI-Odyssey veröffentlicht.
English
Smartphone users often navigate across multiple applications (apps) to
complete tasks such as sharing content between social media platforms.
Autonomous Graphical User Interface (GUI) navigation agents can enhance user
experience in communication, entertainment, and productivity by streamlining
workflows and reducing manual intervention. However, prior GUI agents often
trained with datasets comprising simple tasks that can be completed within a
single app, leading to poor performance in cross-app navigation. To address
this problem, we introduce GUI Odyssey, a comprehensive dataset for training
and evaluating cross-app navigation agents. GUI Odyssey consists of 7,735
episodes from 6 mobile devices, spanning 6 types of cross-app tasks, 201 apps,
and 1.4K app combos. Leveraging GUI Odyssey, we developed OdysseyAgent, a
multimodal cross-app navigation agent by fine-tuning the Qwen-VL model with a
history resampling module. Extensive experiments demonstrate OdysseyAgent's
superior accuracy compared to existing models. For instance, OdysseyAgent
surpasses fine-tuned Qwen-VL and zero-shot GPT-4V by 1.44\% and 55.49\%
in-domain accuracy, and 2.29\% and 48.14\% out-of-domain accuracy on average.
The dataset and code will be released in
https://github.com/OpenGVLab/GUI-Odyssey.Summary
AI-Generated Summary