ShowUI-Aloha: Agente de Interfaz Gráfica Enseñado por Humanos
ShowUI-Aloha: Human-Taught GUI Agent
January 12, 2026
Autores: Yichun Zhang, Xiangwu Guo, Yauhong Goh, Jessica Hu, Zhiheng Chen, Xin Wang, Difei Gao, Mike Zheng Shou
cs.AI
Resumen
Las Interfaces Gráficas de Usuario (GUI) son fundamentales para la interacción humano-computadora, sin embargo, automatizar tareas complejas en GUI sigue siendo un desafío importante para los agentes autónomos, debido en gran parte a la falta de datos de entrenamiento escalables y de alta calidad. Si bien las grabaciones de demostraciones humanas ofrecen una fuente de datos rica, estas suelen ser largas, no estructuradas y carecen de anotaciones, lo que dificulta que los agentes aprendan de ellas.
Para abordar este problema, presentamos ShowUI-Aloha, una canalización integral que transforma grabaciones de pantalla humanas no estructuradas y en entornos reales de escritorio en tareas estructuradas y accionables. Nuestro marco incluye cuatro componentes clave: Un grabador que captura video de la pantalla junto con interacciones precisas del usuario como clics del ratón, pulsaciones de teclas y desplazamientos. Un aprendiz que interpreta semánticamente estas interacciones en crudo y el contexto visual circundante, traduciéndolas a descripciones en lenguaje natural. Un planificador que lee las demostraciones analizadas, mantiene los estados de la tarea y formula dinámicamente el siguiente plan de acción de alto nivel basado en razonamiento contextual. Un ejecutor que lleva a cabo fielmente estos planes de acción a nivel del sistema operativo, realizando clics precisos, arrastres, entradas de texto y operaciones de ventana con verificaciones de seguridad y retroalimentación en tiempo real.
Juntos, estos componentes proporcionan una solución escalable para recopilar y analizar datos humanos del mundo real, demostrando un camino viable hacia la construcción de agentes de GUI de propósito general que puedan aprender eficazmente con solo observar a los humanos.
English
Graphical User Interfaces (GUIs) are central to human-computer interaction, yet automating complex GUI tasks remains a major challenge for autonomous agents, largely due to a lack of scalable, high-quality training data. While recordings of human demonstrations offer a rich data source, they are typically long, unstructured, and lack annotations, making them difficult for agents to learn from.To address this, we introduce ShowUI-Aloha, a comprehensive pipeline that transforms unstructured, in-the-wild human screen recordings from desktop environments into structured, actionable tasks. Our framework includes four key components: A recorder that captures screen video along with precise user interactions like mouse clicks, keystrokes, and scrolls. A learner that semantically interprets these raw interactions and the surrounding visual context, translating them into descriptive natural language captions. A planner that reads the parsed demonstrations, maintains task states, and dynamically formulates the next high-level action plan based on contextual reasoning. An executor that faithfully carries out these action plans at the OS level, performing precise clicks, drags, text inputs, and window operations with safety checks and real-time feedback. Together, these components provide a scalable solution for collecting and parsing real-world human data, demonstrating a viable path toward building general-purpose GUI agents that can learn effectively from simply observing humans.