Odisea GUI: Un Conjunto de Datos Integral para la Navegación Interaplicaciones en Interfaces Gráficas de Usuario en Dispositivos Móviles
GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices
June 12, 2024
Autores: Quanfeng Lu, Wenqi Shao, Zitao Liu, Fanqing Meng, Boxuan Li, Botong Chen, Siyuan Huang, Kaipeng Zhang, Yu Qiao, Ping Luo
cs.AI
Resumen
Los usuarios de smartphones a menudo navegan entre múltiples aplicaciones (apps) para completar tareas como compartir contenido entre plataformas de redes sociales. Los agentes autónomos de navegación de Interfaz Gráfica de Usuario (GUI) pueden mejorar la experiencia del usuario en comunicación, entretenimiento y productividad al optimizar flujos de trabajo y reducir la intervención manual. Sin embargo, los agentes GUI anteriores a menudo se entrenaban con conjuntos de datos que comprendían tareas simples que podían completarse dentro de una sola aplicación, lo que resultaba en un rendimiento deficiente en la navegación entre aplicaciones. Para abordar este problema, presentamos GUI Odyssey, un conjunto de datos integral para entrenar y evaluar agentes de navegación entre aplicaciones. GUI Odyssey consta de 7,735 episodios de 6 dispositivos móviles, abarcando 6 tipos de tareas entre aplicaciones, 201 apps y 1.4K combinaciones de apps. Utilizando GUI Odyssey, desarrollamos OdysseyAgent, un agente de navegación multimodal entre aplicaciones, mediante el ajuste fino del modelo Qwen-VL con un módulo de remuestreo de historial. Experimentos extensos demuestran la precisión superior de OdysseyAgent en comparación con los modelos existentes. Por ejemplo, OdysseyAgent supera a Qwen-VL ajustado y a GPT-4V en modo zero-shot en un 1.44\% y 55.49\% de precisión dentro del dominio, y en un 2.29\% y 48.14\% de precisión fuera del dominio en promedio. El conjunto de datos y el código se publicarán en https://github.com/OpenGVLab/GUI-Odyssey.
English
Smartphone users often navigate across multiple applications (apps) to
complete tasks such as sharing content between social media platforms.
Autonomous Graphical User Interface (GUI) navigation agents can enhance user
experience in communication, entertainment, and productivity by streamlining
workflows and reducing manual intervention. However, prior GUI agents often
trained with datasets comprising simple tasks that can be completed within a
single app, leading to poor performance in cross-app navigation. To address
this problem, we introduce GUI Odyssey, a comprehensive dataset for training
and evaluating cross-app navigation agents. GUI Odyssey consists of 7,735
episodes from 6 mobile devices, spanning 6 types of cross-app tasks, 201 apps,
and 1.4K app combos. Leveraging GUI Odyssey, we developed OdysseyAgent, a
multimodal cross-app navigation agent by fine-tuning the Qwen-VL model with a
history resampling module. Extensive experiments demonstrate OdysseyAgent's
superior accuracy compared to existing models. For instance, OdysseyAgent
surpasses fine-tuned Qwen-VL and zero-shot GPT-4V by 1.44\% and 55.49\%
in-domain accuracy, and 2.29\% and 48.14\% out-of-domain accuracy on average.
The dataset and code will be released in
https://github.com/OpenGVLab/GUI-Odyssey.Summary
AI-Generated Summary