ChatPaper.aiChatPaper

VideoGUI : Un benchmark pour l'automatisation d'interfaces graphiques à partir de vidéos pédagogiques

VideoGUI: A Benchmark for GUI Automation from Instructional Videos

June 14, 2024
Auteurs: Kevin Qinghong Lin, Linjie Li, Difei Gao, Qinchen WU, Mingyi Yan, Zhengyuan Yang, Lijuan Wang, Mike Zheng Shou
cs.AI

Résumé

L'automatisation des interfaces graphiques (GUI) présente un potentiel significatif pour améliorer la productivité humaine en assistant dans les tâches informatiques. Les formulations de tâches existantes se concentrent principalement sur des tâches simples pouvant être spécifiées par une instruction unique en langage naturel, comme "Insérer une nouvelle diapositive". Dans ce travail, nous introduisons VideoGUI, un nouveau benchmark multimodal conçu pour évaluer les assistants GUI sur des tâches visuellement centrées. Sourcé à partir de vidéos pédagogiques web de haute qualité, notre benchmark se concentre sur des tâches impliquant des logiciels professionnels et innovants (par exemple, Adobe Photoshop ou Stable Diffusion WebUI) et des activités complexes (par exemple, le montage vidéo). VideoGUI évalue les assistants GUI à travers un processus hiérarchique, permettant d'identifier les niveaux spécifiques où ils peuvent échouer : (i) planification de haut niveau : reconstruire des sous-tâches procédurales à partir de conditions visuelles sans descriptions linguistiques ; (ii) planification de niveau intermédiaire : générer des séquences de narrations d'actions précises basées sur l'état visuel (c'est-à-dire, une capture d'écran) et les objectifs ; (iii) exécution d'actions atomiques : effectuer des actions spécifiques telles que cliquer avec précision sur des éléments désignés. Pour chaque niveau, nous concevons des métriques d'évaluation à travers des dimensions individuelles pour fournir des signaux clairs, tels que la performance individuelle en clic, glisser-déposer, saisie et défilement pour l'exécution d'actions atomiques. Notre évaluation sur VideoGUI révèle que même le modèle multimodal de pointe GPT4o performe mal sur les tâches GUI visuellement centrées, en particulier pour la planification de haut niveau.
English
Graphical User Interface (GUI) automation holds significant promise for enhancing human productivity by assisting with computer tasks. Existing task formulations primarily focus on simple tasks that can be specified by a single, language-only instruction, such as "Insert a new slide." In this work, we introduce VideoGUI, a novel multi-modal benchmark designed to evaluate GUI assistants on visual-centric GUI tasks. Sourced from high-quality web instructional videos, our benchmark focuses on tasks involving professional and novel software (e.g., Adobe Photoshop or Stable Diffusion WebUI) and complex activities (e.g., video editing). VideoGUI evaluates GUI assistants through a hierarchical process, allowing for identification of the specific levels at which they may fail: (i) high-level planning: reconstruct procedural subtasks from visual conditions without language descriptions; (ii) middle-level planning: generate sequences of precise action narrations based on visual state (i.e., screenshot) and goals; (iii) atomic action execution: perform specific actions such as accurately clicking designated elements. For each level, we design evaluation metrics across individual dimensions to provide clear signals, such as individual performance in clicking, dragging, typing, and scrolling for atomic action execution. Our evaluation on VideoGUI reveals that even the SoTA large multimodal model GPT4o performs poorly on visual-centric GUI tasks, especially for high-level planning.

Summary

AI-Generated Summary

PDF91December 6, 2024