ShowUI-Aloha: Agente de Interface Gráfica Ensinado por Humanos

Resumo

As Interfaces Gráficas de Utilizador (IGUs) são centrais para a interação homem-computador, mas a automação de tarefas complexas em IGUs continua a ser um grande desafio para agentes autónomos, em grande parte devido à falta de dados de treino escaláveis e de alta qualidade. Embora as gravações de demonstrações humanas constituam uma fonte de dados rica, estas são tipicamente longas, não estruturadas e carecem de anotações, dificultando a sua aprendizagem pelos agentes. Para resolver esta questão, apresentamos o ShowUI-Aloha, um *pipeline* abrangente que transforma gravações não estruturadas de ecrãs humanos, capturadas em ambientes de trabalho reais, em tarefas estruturadas e acionáveis. A nossa estrutura inclui quatro componentes principais: Um gravador que captura vídeo do ecrã juntamente com interações precisas do utilizador, como cliques do rato, pressionamentos de tecla e movimentos de scroll. Um aprendiz que interpreta semanticamente estas interações brutas e o contexto visual circundante, traduzindo-as em legendas descritivas em linguagem natural. Um planeador que lê as demonstrações analisadas, mantém os estados da tarefa e formula dinamicamente o próximo plano de ação de alto nível com base no raciocínio contextual. Um executor que executa fielmente estes planos de ação ao nível do sistema operativo, realizando cliques, arrastos, entradas de texto e operações de janela precisas, com verificações de segurança e *feedback* em tempo real. Em conjunto, estes componentes fornecem uma solução escalável para recolher e analisar dados humanos do mundo real, demonstrando um caminho viável para a construção de agentes de IGU de propósito geral que podem aprender eficazmente apenas observando humanos.

English

Graphical User Interfaces (GUIs) are central to human-computer interaction, yet automating complex GUI tasks remains a major challenge for autonomous agents, largely due to a lack of scalable, high-quality training data. While recordings of human demonstrations offer a rich data source, they are typically long, unstructured, and lack annotations, making them difficult for agents to learn from.To address this, we introduce ShowUI-Aloha, a comprehensive pipeline that transforms unstructured, in-the-wild human screen recordings from desktop environments into structured, actionable tasks. Our framework includes four key components: A recorder that captures screen video along with precise user interactions like mouse clicks, keystrokes, and scrolls. A learner that semantically interprets these raw interactions and the surrounding visual context, translating them into descriptive natural language captions. A planner that reads the parsed demonstrations, maintains task states, and dynamically formulates the next high-level action plan based on contextual reasoning. An executor that faithfully carries out these action plans at the OS level, performing precise clicks, drags, text inputs, and window operations with safety checks and real-time feedback. Together, these components provide a scalable solution for collecting and parsing real-world human data, demonstrating a viable path toward building general-purpose GUI agents that can learn effectively from simply observing humans.

ShowUI-Aloha: Agente de Interface Gráfica Ensinado por Humanos

ShowUI-Aloha: Human-Taught GUI Agent

Resumo

Support