VideoGUI: Un punto de referencia para la automatización de interfaces gráficas a partir de videos instructivos
VideoGUI: A Benchmark for GUI Automation from Instructional Videos
June 14, 2024
Autores: Kevin Qinghong Lin, Linjie Li, Difei Gao, Qinchen WU, Mingyi Yan, Zhengyuan Yang, Lijuan Wang, Mike Zheng Shou
cs.AI
Resumen
La automatización de Interfaces Gráficas de Usuario (GUI) tiene un gran potencial para mejorar la productividad humana al asistir en tareas informáticas. Las formulaciones de tareas existentes se centran principalmente en tareas simples que pueden especificarse con una única instrucción basada únicamente en lenguaje, como "Insertar una nueva diapositiva". En este trabajo, presentamos VideoGUI, un nuevo benchmark multimodal diseñado para evaluar asistentes de GUI en tareas visualmente centradas. Basado en videos instructivos de alta calidad de la web, nuestro benchmark se enfoca en tareas que involucran software profesional y novedoso (por ejemplo, Adobe Photoshop o Stable Diffusion WebUI) y actividades complejas (por ejemplo, edición de video). VideoGUI evalúa a los asistentes de GUI mediante un proceso jerárquico, permitiendo identificar los niveles específicos en los que pueden fallar: (i) planificación de alto nivel: reconstruir subtareas procedimentales a partir de condiciones visuales sin descripciones de lenguaje; (ii) planificación de nivel medio: generar secuencias de narraciones de acciones precisas basadas en el estado visual (es decir, captura de pantalla) y objetivos; (iii) ejecución de acciones atómicas: realizar acciones específicas como hacer clic con precisión en elementos designados. Para cada nivel, diseñamos métricas de evaluación en dimensiones individuales para proporcionar señales claras, como el rendimiento individual en hacer clic, arrastrar, escribir y desplazarse para la ejecución de acciones atómicas. Nuestra evaluación en VideoGUI revela que incluso el modelo multimodal de última generación GPT4o tiene un rendimiento deficiente en tareas de GUI visualmente centradas, especialmente en la planificación de alto nivel.
English
Graphical User Interface (GUI) automation holds significant promise for
enhancing human productivity by assisting with computer tasks. Existing task
formulations primarily focus on simple tasks that can be specified by a single,
language-only instruction, such as "Insert a new slide." In this work, we
introduce VideoGUI, a novel multi-modal benchmark designed to evaluate GUI
assistants on visual-centric GUI tasks. Sourced from high-quality web
instructional videos, our benchmark focuses on tasks involving professional and
novel software (e.g., Adobe Photoshop or Stable Diffusion WebUI) and complex
activities (e.g., video editing). VideoGUI evaluates GUI assistants through a
hierarchical process, allowing for identification of the specific levels at
which they may fail: (i) high-level planning: reconstruct procedural subtasks
from visual conditions without language descriptions; (ii) middle-level
planning: generate sequences of precise action narrations based on visual state
(i.e., screenshot) and goals; (iii) atomic action execution: perform specific
actions such as accurately clicking designated elements. For each level, we
design evaluation metrics across individual dimensions to provide clear
signals, such as individual performance in clicking, dragging, typing, and
scrolling for atomic action execution. Our evaluation on VideoGUI reveals that
even the SoTA large multimodal model GPT4o performs poorly on visual-centric
GUI tasks, especially for high-level planning.Summary
AI-Generated Summary