ChatPaper.aiChatPaper

VideoGUI: Ein Benchmark für die Automatisierung von grafischen Benutzeroberflächen aus Anleitungsvideos

VideoGUI: A Benchmark for GUI Automation from Instructional Videos

June 14, 2024
Autoren: Kevin Qinghong Lin, Linjie Li, Difei Gao, Qinchen WU, Mingyi Yan, Zhengyuan Yang, Lijuan Wang, Mike Zheng Shou
cs.AI

Zusammenfassung

Die Automatisierung der grafischen Benutzeroberfläche (Graphical User Interface, GUI) birgt ein großes Potenzial zur Steigerung der menschlichen Produktivität, indem sie bei Computerarbeiten unterstützt. Bestehende Aufgabenformulierungen konzentrieren sich hauptsächlich auf einfache Aufgaben, die durch eine einzige, ausschließlich sprachliche Anweisung spezifiziert werden können, wie z.B. "Fügen Sie eine neue Folie ein". In dieser Arbeit stellen wir VideoGUI vor, einen neuartigen multimodalen Benchmark, der darauf abzielt, GUI-Assistenten bei visuell-zentrierten GUI-Aufgaben zu bewerten. Basierend auf hochwertigen Web-Instruktionsvideos konzentriert sich unser Benchmark auf Aufgaben, die professionelle und neuartige Software (z.B. Adobe Photoshop oder Stable Diffusion WebUI) sowie komplexe Aktivitäten (z.B. Videobearbeitung) umfassen. VideoGUI bewertet GUI-Assistenten durch einen hierarchischen Prozess, der es ermöglicht, die spezifischen Ebenen zu identifizieren, auf denen sie versagen können: (i) Planung auf hoher Ebene: Rekonstruktion von prozeduralen Teilaufgaben aus visuellen Bedingungen ohne sprachliche Beschreibungen; (ii) Planung auf mittlerer Ebene: Generierung von Sequenzen präziser Handlungsbeschreibungen basierend auf visuellem Zustand (d.h. Bildschirmfoto) und Zielen; (iii) Ausführung atomarer Aktionen: Durchführung spezifischer Aktionen wie präzises Klicken auf bestimmte Elemente. Für jede Ebene entwerfen wir Bewertungsmetriken über einzelne Dimensionen, um klare Signale zu liefern, wie z.B. individuelle Leistung beim Klicken, Ziehen, Tippen und Scrollen für die Ausführung atomarer Aktionen. Unsere Evaluation von VideoGUI zeigt, dass selbst das modernste multimodale Modell GPT4o bei visuell-zentrierten GUI-Aufgaben, insbesondere bei der Planung auf hoher Ebene, schlecht abschneidet.
English
Graphical User Interface (GUI) automation holds significant promise for enhancing human productivity by assisting with computer tasks. Existing task formulations primarily focus on simple tasks that can be specified by a single, language-only instruction, such as "Insert a new slide." In this work, we introduce VideoGUI, a novel multi-modal benchmark designed to evaluate GUI assistants on visual-centric GUI tasks. Sourced from high-quality web instructional videos, our benchmark focuses on tasks involving professional and novel software (e.g., Adobe Photoshop or Stable Diffusion WebUI) and complex activities (e.g., video editing). VideoGUI evaluates GUI assistants through a hierarchical process, allowing for identification of the specific levels at which they may fail: (i) high-level planning: reconstruct procedural subtasks from visual conditions without language descriptions; (ii) middle-level planning: generate sequences of precise action narrations based on visual state (i.e., screenshot) and goals; (iii) atomic action execution: perform specific actions such as accurately clicking designated elements. For each level, we design evaluation metrics across individual dimensions to provide clear signals, such as individual performance in clicking, dragging, typing, and scrolling for atomic action execution. Our evaluation on VideoGUI reveals that even the SoTA large multimodal model GPT4o performs poorly on visual-centric GUI tasks, especially for high-level planning.

Summary

AI-Generated Summary

PDF91December 6, 2024