ChatPaper.aiChatPaper

ShowUI-Aloha: 인간이 가르친 GUI 에이전트

ShowUI-Aloha: Human-Taught GUI Agent

January 12, 2026
저자: Yichun Zhang, Xiangwu Guo, Yauhong Goh, Jessica Hu, Zhiheng Chen, Xin Wang, Difei Gao, Mike Zheng Shou
cs.AI

초록

그래픽 사용자 인터페이스(GUI)는 인간-컴퓨터 상호작용의 핵심이지만, 복잡한 GUI 작업의 자동화는 확장 가능한 고품질 학습 데이터의 부족으로 인해 자율 에이전트에게 여전히 큰 과제로 남아 있습니다. 인간의 시연 기록은 풍부한 데이터 원천이지만, 일반적으로 길고 비구조적이며 주석이 부족하여 에이전트가 학습하기 어렵습니다. 이를 해결하기 위해 우리는 데스크톱 환경에서 비구조적인 실제 인간의 화면 기록을 구조화되고 실행 가능한 작업으로 변환하는 포괄적인 파이프라인인 ShowUI-Aloha를 소개합니다. 우리의 프레임워크는 네 가지 핵심 구성 요소를 포함합니다: 화면 비디오와 함께 마우스 클릭, 키 입력, 스크롤 같은 정확한 사용자 상호작용을 포착하는 기록기. 이러한 원시 상호작용과 주변 시각적 맥락을 의미론적으로 해석하여 설명적인 자연어 캡션으로 변환하는 학습기. 구문 분석된 시연을 읽고 작업 상태를 유지하며 맥락적 추론을 기반으로 다음 고수준 행동 계획을 동적으로 수립하는 계획기. 이러한 행동 계획을 OS 수준에서 안전 검사와 실시간 피드백을 통해 정확한 클릭, 드래그, 텍스트 입력, 창 조작을 수행하는 실행기. 이러한 구성 요소들이 함께 작동하여 실제 인간 데이터를 수집하고 구문 분석하기 위한 확장 가능한 솔루션을 제공하며, 단순히 인간을 관찰함으로써 효과적으로 학습할 수 있는 범용 GUI 에이전트 구축을 위한 실현 가능한 경로를 제시합니다.
English
Graphical User Interfaces (GUIs) are central to human-computer interaction, yet automating complex GUI tasks remains a major challenge for autonomous agents, largely due to a lack of scalable, high-quality training data. While recordings of human demonstrations offer a rich data source, they are typically long, unstructured, and lack annotations, making them difficult for agents to learn from.To address this, we introduce ShowUI-Aloha, a comprehensive pipeline that transforms unstructured, in-the-wild human screen recordings from desktop environments into structured, actionable tasks. Our framework includes four key components: A recorder that captures screen video along with precise user interactions like mouse clicks, keystrokes, and scrolls. A learner that semantically interprets these raw interactions and the surrounding visual context, translating them into descriptive natural language captions. A planner that reads the parsed demonstrations, maintains task states, and dynamically formulates the next high-level action plan based on contextual reasoning. An executor that faithfully carries out these action plans at the OS level, performing precise clicks, drags, text inputs, and window operations with safety checks and real-time feedback. Together, these components provide a scalable solution for collecting and parsing real-world human data, demonstrating a viable path toward building general-purpose GUI agents that can learn effectively from simply observing humans.
PDF20January 14, 2026