CUA-Suite: Массивный набор аннотированных человеком видеодемонстраций для агентов, взаимодействующих с компьютером

Аннотация

Агенты для работы с компьютером (Computer-use agents, CUA) обладают большим потенциалом для автоматизации сложных рабочих процессов на рабочем столе, однако прогресс в создании агентов общего назначения сдерживается дефицитом непрерывных высококачественных видеодемонстраций от человека. Недавние исследования подчеркивают, что именно непрерывное видео, а не отдельные скриншоты, является ключевым недостающим элементом для масштабирования таких агентов. Однако крупнейший существующий открытый датасет, ScaleCUA, содержит всего 2 миллиона скриншотов, что эквивалентно менее чем 20 часам видео. Чтобы решить эту проблему, мы представляем CUA-Suite — масштабируемую экосистему экспертных видеодемонстраций и детальных аннотаций для профессиональных агентов, работающих с настольными компьютерами. Её основу составляет VideoCUA, который предоставляет около 10 000 задач, продемонстрированных человеком, в 87 различных приложениях, включая непрерывные записи экрана с частотой 30 кадров в секунду, кинематические траектории курсора и многоуровневые аннотации рассуждений, что в сумме составляет примерно 55 часов и 6 миллионов кадров экспертного видео. В отличие от разреженных датасетов, фиксирующих только конечные координаты кликов, эти непрерывные видеопотоки сохраняют полную временную динамику человеческого взаимодействия, образуя надмножество информации, которое можно без потерь преобразовать в форматы, требуемые существующими фреймворками для агентов. CUA-Suite дополнительно предоставляет два взаимодополняющих ресурса: UI-Vision — строгий бенчмарк для оценки способностей CUA к заземлению (grounding) и планированию, и GroundCUA — масштабный датасет для заземления с 56 тыс. аннотированных скриншотов и более 3,6 млн аннотаций элементов пользовательского интерфейса. Предварительная оценка показывает, что современные базовые модели действий существенно затрудняются с профессиональными настольными приложениями (~60% процент неудачного выполнения задач). Помимо оценки, богатый многомодальный корпус CUA-Suite поддерживает новые направления исследований, включая универсальный парсинг экрана, непрерывное пространственное управление, моделирование вознаграждения на основе видео и визуальные мировые модели. Все данные и модели находятся в открытом доступе.

English

Computer-use agents (CUAs) hold great promise for automating complex desktop workflows, yet progress toward general-purpose agents is bottlenecked by the scarcity of continuous, high-quality human demonstration videos. Recent work emphasizes that continuous video, not sparse screenshots, is the critical missing ingredient for scaling these agents. However, the largest existing open dataset, ScaleCUA, contains only 2 million screenshots, equating to less than 20 hours of video. To address this bottleneck, we introduce CUA-Suite, a large-scale ecosystem of expert video demonstrations and dense annotations for professional desktop computer-use agents. At its core is VideoCUA, which provides approximately 10,000 human-demonstrated tasks across 87 diverse applications with continuous 30 fps screen recordings, kinematic cursor traces, and multi-layerfed reasoning annotations, totaling approximately 55 hours and 6 million frames of expert video. Unlike sparse datasets that capture only final click coordinates, these continuous video streams preserve the full temporal dynamics of human interaction, forming a superset of information that can be losslessly transformed into the formats required by existing agent frameworks. CUA-Suite further provides two complementary resources: UI-Vision, a rigorous benchmark for evaluating grounding and planning capabilities in CUAs, and GroundCUA, a large-scale grounding dataset with 56K annotated screenshots and over 3.6 million UI element annotations. Preliminary evaluation reveals that current foundation action models struggle substantially with professional desktop applications (~60% task failure rate). Beyond evaluation, CUA-Suite's rich multimodal corpus supports emerging research directions including generalist screen parsing, continuous spatial control, video-based reward modeling, and visual world models. All data and models are publicly released.

CUA-Suite: Массивный набор аннотированных человеком видеодемонстраций для агентов, взаимодействующих с компьютером

CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents

Аннотация

Support