VideoGUI: Um Benchmark para Automação de GUI a partir de Vídeos Instrucionais
VideoGUI: A Benchmark for GUI Automation from Instructional Videos
June 14, 2024
Autores: Kevin Qinghong Lin, Linjie Li, Difei Gao, Qinchen WU, Mingyi Yan, Zhengyuan Yang, Lijuan Wang, Mike Zheng Shou
cs.AI
Resumo
A automação de Interface Gráfica do Usuário (GUI) apresenta um potencial significativo para aumentar a produtividade humana ao auxiliar em tarefas computacionais. As formulações de tarefas existentes concentram-se principalmente em atividades simples que podem ser especificadas por uma única instrução baseada apenas em linguagem, como "Inserir um novo slide". Neste trabalho, apresentamos o VideoGUI, um novo benchmark multimodal projetado para avaliar assistentes de GUI em tarefas visuais centradas na interface. Baseado em vídeos instrutivos de alta qualidade da web, nosso benchmark foca em tarefas que envolvem softwares profissionais e inovadores (por exemplo, Adobe Photoshop ou Stable Diffusion WebUI) e atividades complexas (por exemplo, edição de vídeo). O VideoGUI avalia assistentes de GUI por meio de um processo hierárquico, permitindo a identificação dos níveis específicos em que eles podem falhar: (i) planejamento de alto nível: reconstruir subtarefas procedimentais a partir de condições visuais sem descrições em linguagem; (ii) planejamento de nível médio: gerar sequências de narrativas de ações precisas com base no estado visual (ou seja, captura de tela) e objetivos; (iii) execução de ações atômicas: realizar ações específicas, como clicar com precisão em elementos designados. Para cada nível, projetamos métricas de avaliação em dimensões individuais para fornecer sinais claros, como desempenho individual em cliques, arrastos, digitação e rolagem para a execução de ações atômicas. Nossa avaliação no VideoGUI revela que mesmo o modelo multimodal de última geração GPT4o tem um desempenho ruim em tarefas visuais centradas na GUI, especialmente no planejamento de alto nível.
English
Graphical User Interface (GUI) automation holds significant promise for
enhancing human productivity by assisting with computer tasks. Existing task
formulations primarily focus on simple tasks that can be specified by a single,
language-only instruction, such as "Insert a new slide." In this work, we
introduce VideoGUI, a novel multi-modal benchmark designed to evaluate GUI
assistants on visual-centric GUI tasks. Sourced from high-quality web
instructional videos, our benchmark focuses on tasks involving professional and
novel software (e.g., Adobe Photoshop or Stable Diffusion WebUI) and complex
activities (e.g., video editing). VideoGUI evaluates GUI assistants through a
hierarchical process, allowing for identification of the specific levels at
which they may fail: (i) high-level planning: reconstruct procedural subtasks
from visual conditions without language descriptions; (ii) middle-level
planning: generate sequences of precise action narrations based on visual state
(i.e., screenshot) and goals; (iii) atomic action execution: perform specific
actions such as accurately clicking designated elements. For each level, we
design evaluation metrics across individual dimensions to provide clear
signals, such as individual performance in clicking, dragging, typing, and
scrolling for atomic action execution. Our evaluation on VideoGUI reveals that
even the SoTA large multimodal model GPT4o performs poorly on visual-centric
GUI tasks, especially for high-level planning.