ChatPaper.aiChatPaper

ShowUI-Aloha: Ein durch menschliche Anleitung trainierter GUI-Agent

ShowUI-Aloha: Human-Taught GUI Agent

January 12, 2026
papers.authors: Yichun Zhang, Xiangwu Guo, Yauhong Goh, Jessica Hu, Zhiheng Chen, Xin Wang, Difei Gao, Mike Zheng Shou
cs.AI

papers.abstract

Grafische Benutzeroberflächen (GUIs) sind zentral für die Mensch-Computer-Interaktion, doch die Automatisierung komplexer GUI-Aufgaben bleibt eine große Herausforderung für autonome Agenten, hauptsächlich aufgrund eines Mangels an skalierbaren, hochwertigen Trainingsdaten. Obwohl Aufzeichnungen menschlicher Demonstrationen eine reichhaltige Datenquelle darstellen, sind diese typischerweise lang, unstrukturiert und ohne Annotationen, was es Agenten erschwert, daraus zu lernen. Um dieses Problem zu lösen, stellen wir ShowUI-Aloha vor, eine umfassende Pipeline, die unstrukturierte, natürlich aufgenommene Bildschirmvideos von Desktop-Umgebungen in strukturierte, ausführbare Aufgaben umwandelt. Unser Framework umfasst vier Schlüsselkomponenten: Einen Rekorder, der den Bildschirm sowie präzise Benutzerinteraktionen wie Mausklicks, Tastenanschläge und Scrollbewegungen aufzeichnet. Einen Interpreter, der diese Rohinteraktionen und den visuellen Kontext semantisch analysiert und in beschreibende natürliche Sprachbeschreibungen übersetzt. Einen Planer, der die analysierten Demonstrationen verarbeitet, Aufgabenstatus verwaltet und dynamisch den nächsten hochleveligen Aktionsplan auf Basis kontextueller Schlussfolgerungen erstellt. Einen Ausführungsmodul, der diese Aktionspläne auf Betriebssystemebene zuverlässig ausführt und präzise Klicks, Ziehbewegungen, Texteingaben sowie Fensteroperationen mit Sicherheitsprüfungen und Echtzeit-Feedback durchführt. Zusammen bieten diese Komponenten eine skalierbare Lösung zur Erfassung und Analyse realer menschlicher Daten und zeigen einen praktikablen Weg zum Aufbau universeller GUI-Agenten auf, die effektiv durch reine Beobachtung menschlicher Handlungen lernen können.
English
Graphical User Interfaces (GUIs) are central to human-computer interaction, yet automating complex GUI tasks remains a major challenge for autonomous agents, largely due to a lack of scalable, high-quality training data. While recordings of human demonstrations offer a rich data source, they are typically long, unstructured, and lack annotations, making them difficult for agents to learn from.To address this, we introduce ShowUI-Aloha, a comprehensive pipeline that transforms unstructured, in-the-wild human screen recordings from desktop environments into structured, actionable tasks. Our framework includes four key components: A recorder that captures screen video along with precise user interactions like mouse clicks, keystrokes, and scrolls. A learner that semantically interprets these raw interactions and the surrounding visual context, translating them into descriptive natural language captions. A planner that reads the parsed demonstrations, maintains task states, and dynamically formulates the next high-level action plan based on contextual reasoning. An executor that faithfully carries out these action plans at the OS level, performing precise clicks, drags, text inputs, and window operations with safety checks and real-time feedback. Together, these components provide a scalable solution for collecting and parsing real-world human data, demonstrating a viable path toward building general-purpose GUI agents that can learn effectively from simply observing humans.
PDF20January 14, 2026