ChatPaper.aiChatPaper

ShowUI-Aloha : Agent d'Interface Graphique Enseigné par l'Humain

ShowUI-Aloha: Human-Taught GUI Agent

January 12, 2026
papers.authors: Yichun Zhang, Xiangwu Guo, Yauhong Goh, Jessica Hu, Zhiheng Chen, Xin Wang, Difei Gao, Mike Zheng Shou
cs.AI

papers.abstract

Les interfaces graphiques (GUI) sont centrales pour l'interaction humain-machine, mais l'automatisation des tâches complexes sur GUI reste un défi majeur pour les agents autonomes, principalement en raison du manque de données d'entraînement évolutives et de haute qualité. Bien que les enregistrements de démonstrations humaines constituent une source de données riche, elles sont généralement longues, non structurées et manquent d'annotations, ce qui les rend difficiles à exploiter pour l'apprentissage des agents. Pour résoudre ce problème, nous présentons ShowUI-Aloha, un pipeline complet qui transforme les enregistrements d'écran humains non structurés, issus d'environnements de bureau, en tâches structurées et actionnables. Notre framework comprend quatre composants clés : Un enregistreur qui capture la vidéo d'écran ainsi que les interactions utilisateur précises comme les clics de souris, les frappes au clavier et les défilements. Un apprenant qui interprète sémantiquement ces interactions brutes et le contexte visuel environnant, en les traduisant en légendes descriptives en langage naturel. Un planificateur qui lit les démonstrations analysées, maintient les états des tâches et formule dynamiquement le prochain plan d'action de haut niveau basé sur un raisonnement contextuel. Un exécuteur qui exécute fidèlement ces plans d'action au niveau du système d'exploitation, effectuant des clics, des glisser-déposer, des saisies de texte et des opérations sur les fenêtres avec précision, incluant des contrôles de sécurité et un retour d'information en temps réel. Ensemble, ces composants fournissent une solution évolutive pour collecter et analyser des données humaines réalistes, démontrant une voie viable pour construire des agents GUI polyvalents capables d'apprendre efficacement simplement en observant les humains.
English
Graphical User Interfaces (GUIs) are central to human-computer interaction, yet automating complex GUI tasks remains a major challenge for autonomous agents, largely due to a lack of scalable, high-quality training data. While recordings of human demonstrations offer a rich data source, they are typically long, unstructured, and lack annotations, making them difficult for agents to learn from.To address this, we introduce ShowUI-Aloha, a comprehensive pipeline that transforms unstructured, in-the-wild human screen recordings from desktop environments into structured, actionable tasks. Our framework includes four key components: A recorder that captures screen video along with precise user interactions like mouse clicks, keystrokes, and scrolls. A learner that semantically interprets these raw interactions and the surrounding visual context, translating them into descriptive natural language captions. A planner that reads the parsed demonstrations, maintains task states, and dynamically formulates the next high-level action plan based on contextual reasoning. An executor that faithfully carries out these action plans at the OS level, performing precise clicks, drags, text inputs, and window operations with safety checks and real-time feedback. Together, these components provide a scalable solution for collecting and parsing real-world human data, demonstrating a viable path toward building general-purpose GUI agents that can learn effectively from simply observing humans.
PDF20January 14, 2026