ShowUI-Aloha: door mensen aangeleerde GUI-agent
ShowUI-Aloha: Human-Taught GUI Agent
January 12, 2026
Auteurs: Yichun Zhang, Xiangwu Guo, Yauhong Goh, Jessica Hu, Zhiheng Chen, Xin Wang, Difei Gao, Mike Zheng Shou
cs.AI
Samenvatting
Grafische gebruikersinterfaces (GUI's) vormen de kern van mens-computerinteractie, maar het automatiseren van complexe GUI-taken blijft een grote uitdaging voor autonome agents, voornamelijk door een gebrek aan schaalbare, hoogwaardige trainingsdata. Hoewel opnames van menselijke demonstraties een rijke databron bieden, zijn deze doorgaans lang, ongestructureerd en missen ze annotaties, wat het voor agents moeilijk maakt ervan te leren.
Om dit aan te pakken, introduceren we ShowUI-Aloha, een uitgebreide pijplijn die ongestructureerde, 'in-the-wild' schermopnames van menselijke gebruikers op desktopomgevingen omzet in gestructureerde, uitvoerbare taken. Ons raamwerk omvat vier kernelementen: Een recorder die schermvideo vastlegt samen met precieze gebruikersinteracties zoals muisklikken, toetsaanslagen en scrollbewegingen. Een leercomponent die deze ruwe interacties en de visuele context semantisch interpreteert en vertaalt naar beschrijvende natuurlijke-taal-bijschriften. Een planner die de geparseerde demonstraties leest, de taakstatus bijhoudt en dynamisch het volgende hoog-niveau actieplan formuleert op basis van contextuele redenering. Een uitvoerder die deze actieplannen nauwgezet uitvoert op het niveau van het besturingssysteem, waarbij precieze klikken, drags, tekstinvoer en vensterbewerkingen worden uitgevoerd met veiligheidscontroles en realtime feedback.
Samen bieden deze componenten een schaalbare oplossing voor het verzamelen en parseren van real-world menselijke data, waarmee een haalbaar pad wordt gedemonstreerd naar het bouwen van algemene GUI-agents die effectief kunnen leren door simpelweg mensen te observeren.
English
Graphical User Interfaces (GUIs) are central to human-computer interaction, yet automating complex GUI tasks remains a major challenge for autonomous agents, largely due to a lack of scalable, high-quality training data. While recordings of human demonstrations offer a rich data source, they are typically long, unstructured, and lack annotations, making them difficult for agents to learn from.To address this, we introduce ShowUI-Aloha, a comprehensive pipeline that transforms unstructured, in-the-wild human screen recordings from desktop environments into structured, actionable tasks. Our framework includes four key components: A recorder that captures screen video along with precise user interactions like mouse clicks, keystrokes, and scrolls. A learner that semantically interprets these raw interactions and the surrounding visual context, translating them into descriptive natural language captions. A planner that reads the parsed demonstrations, maintains task states, and dynamically formulates the next high-level action plan based on contextual reasoning. An executor that faithfully carries out these action plans at the OS level, performing precise clicks, drags, text inputs, and window operations with safety checks and real-time feedback. Together, these components provide a scalable solution for collecting and parsing real-world human data, demonstrating a viable path toward building general-purpose GUI agents that can learn effectively from simply observing humans.