ChatPaper.aiChatPaper

ShowUI-Aloha: Графический агент, обучаемый человеком

ShowUI-Aloha: Human-Taught GUI Agent

January 12, 2026
Авторы: Yichun Zhang, Xiangwu Guo, Yauhong Goh, Jessica Hu, Zhiheng Chen, Xin Wang, Difei Gao, Mike Zheng Shou
cs.AI

Аннотация

Графические пользовательские интерфейсы (GUI) играют центральную роль во взаимодействии человека с компьютером, однако автоматизация сложных задач в GUI остается серьезной проблемой для автономных агентов, главным образом из-за отсутствия масштабируемых высококачественных обучающих данных. Хотя записи демонстраций пользователей представляют собой богатый источник данных, они обычно длинные, неструктурированные и не имеют аннотаций, что затрудняет их использование для обучения агентов. Для решения этой проблемы мы представляем ShowUI-Aloha — комплексный конвейер, преобразующий неструктурированные записи экранов пользователей в настольных средах в структурированные выполняемые задачи. Наша система включает четыре ключевых компонента: рекордер, который фиксирует видео экрана вместе с точными действиями пользователя, такими как клики мышью, нажатия клавиш и прокрутка; модуль интерпретации, который семантически анализирует эти сырые взаимодействия и визуальный контекст, преобразуя их в описательные текстовые аннотации; планировщик, который читает обработанные демонстрации, отслеживает состояние задачи и динамически формирует следующий план действий высокого уровня на основе контекстных рассуждений; и исполнитель, который точно выполняет эти планы действий на уровне операционной системы, производя точные клики, перетаскивания, ввод текста и операции с окнами с проверкой безопасности и обратной связью в реальном времени. Вместе эти компоненты обеспечивают масштабируемое решение для сбора и анализа реальных человеческих данных, демонстрируя жизнеспособный путь к созданию универсальных GUI-агентов, способных эффективно обучаться, просто наблюдая за действиями людей.
English
Graphical User Interfaces (GUIs) are central to human-computer interaction, yet automating complex GUI tasks remains a major challenge for autonomous agents, largely due to a lack of scalable, high-quality training data. While recordings of human demonstrations offer a rich data source, they are typically long, unstructured, and lack annotations, making them difficult for agents to learn from.To address this, we introduce ShowUI-Aloha, a comprehensive pipeline that transforms unstructured, in-the-wild human screen recordings from desktop environments into structured, actionable tasks. Our framework includes four key components: A recorder that captures screen video along with precise user interactions like mouse clicks, keystrokes, and scrolls. A learner that semantically interprets these raw interactions and the surrounding visual context, translating them into descriptive natural language captions. A planner that reads the parsed demonstrations, maintains task states, and dynamically formulates the next high-level action plan based on contextual reasoning. An executor that faithfully carries out these action plans at the OS level, performing precise clicks, drags, text inputs, and window operations with safety checks and real-time feedback. Together, these components provide a scalable solution for collecting and parsing real-world human data, demonstrating a viable path toward building general-purpose GUI agents that can learn effectively from simply observing humans.
PDF20January 14, 2026