ShowUI-Aloha: 人間が教えるGUIエージェント
ShowUI-Aloha: Human-Taught GUI Agent
January 12, 2026
著者: Yichun Zhang, Xiangwu Guo, Yauhong Goh, Jessica Hu, Zhiheng Chen, Xin Wang, Difei Gao, Mike Zheng Shou
cs.AI
要旨
グラフィカルユーザインタフェース(GUI)は人間とコンピュータの相互作用において中心的な役割を果たしているが、複雑なGUIタスクの自動化は自律エージェントにとって依然として大きな課題である。これは主に、スケーラブルで高品質な訓練データの不足に起因している。人間による実演の記録は豊富なデータソースを提供するが、通常は長く、非構造的で、注釈が欠けており、エージェントが学習するのが困難である。
この問題に対処するため、我々はShowUI-Alohaを提案する。これは、デスクトップ環境における野生の人間の画面記録を、構造化され実行可能なタスクへ変換する包括的なパイプラインである。本フレームワークは以下の4つの主要コンポーネントで構成される:画面ビデオと、マウスクリック、キーストローク、スクロールといった正確なユーザ操作を記録する**レコーダ**。生の操作と周囲の視覚的コンテキストを意味的に解釈し、記述的な自然言語キャプションへ変換する**学習器**。解析された実演を読み取り、タスク状態を維持し、文脈に基づく推論に基づいて次の高レベルな行動計画を動的に策定する**プランナ**。OSレベルでこれらの行動計画を忠実に実行し、安全チェックとリアルタイムフィードバックを伴って正確なクリック、ドラッグ、テキスト入力、ウィンドウ操作を行う**実行器**。
これらのコンポーネントが一体となることで、実世界の人間のデータを収集・解析するためのスケーラブルなソリューションを提供し、単に人間を観察するだけで効果的に学習できる汎用GUIエージェントの構築に向けた実現可能な道筋を示す。
English
Graphical User Interfaces (GUIs) are central to human-computer interaction, yet automating complex GUI tasks remains a major challenge for autonomous agents, largely due to a lack of scalable, high-quality training data. While recordings of human demonstrations offer a rich data source, they are typically long, unstructured, and lack annotations, making them difficult for agents to learn from.To address this, we introduce ShowUI-Aloha, a comprehensive pipeline that transforms unstructured, in-the-wild human screen recordings from desktop environments into structured, actionable tasks. Our framework includes four key components: A recorder that captures screen video along with precise user interactions like mouse clicks, keystrokes, and scrolls. A learner that semantically interprets these raw interactions and the surrounding visual context, translating them into descriptive natural language captions. A planner that reads the parsed demonstrations, maintains task states, and dynamically formulates the next high-level action plan based on contextual reasoning. An executor that faithfully carries out these action plans at the OS level, performing precise clicks, drags, text inputs, and window operations with safety checks and real-time feedback. Together, these components provide a scalable solution for collecting and parsing real-world human data, demonstrating a viable path toward building general-purpose GUI agents that can learn effectively from simply observing humans.