CUA-Suite: Demonstrações Maciças de Vídeo Anotadas por Humanos para Agentes de Uso de Computador
CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents
March 25, 2026
Autores: Xiangru Jian, Shravan Nayak, Kevin Qinghong Lin, Aarash Feizi, Kaixin Li, Patrice Bechard, Spandana Gella, Sai Rajeswar
cs.AI
Resumo
Os agentes de uso de computador (CUAs) têm um grande potencial para automatizar fluxos de trabalho complexos em ambientes desktop, mas o progresso em direção a agentes de propósito geral está limitado pela escassez de vídeos de demonstração humana contínuos e de alta qualidade. Trabalhos recentes enfatizam que o vídeo contínuo, e não capturas de tela esparsas, é o ingrediente crítico em falta para escalar esses agentes. No entanto, o maior conjunto de dados aberto existente, o ScaleCUA, contém apenas 2 milhões de capturas de tela, equivalentes a menos de 20 horas de vídeo. Para resolver este gargalo, apresentamos o CUA-Suite, um ecossistema em larga escala de demonstrações em vídeo especializadas e anotações densas para agentes profissionais de uso de desktop. O seu núcleo é o VideoCUA, que disponibiliza aproximadamente 10.000 tarefas demonstradas por humanos em 87 aplicações diversas, com gravações contínuas de tela a 30 fps, trajetórias cinemáticas do cursor e anotações de raciocínio em múltiplas camadas, totalizando aproximadamente 55 horas e 6 milhões de frames de vídeo especializado. Diferente de conjuntos de dados esparsos que capturam apenas coordenadas finais de clique, estes fluxos de vídeo contínuos preservam a dinâmica temporal completa da interação humana, formando um superconjunto de informações que pode ser transformado sem perdas nos formatos exigidos pelas estruturas de agentes existentes. O CUA-Suite fornece ainda dois recursos complementares: o UI-Vision, um benchmark rigoroso para avaliar capacidades de grounding e planeamento em CUAs, e o GroundCUA, um conjunto de dados de grounding em larga escala com 56 mil capturas de tela anotadas e mais de 3,6 milhões de anotações de elementos de interface do utilizador (UI). A avaliação preliminar revela que os atuais modelos de ação de base (foundation action models) têm dificuldades substanciais com aplicações de desktop profissionais (~60% de taxa de falha de tarefas). Para além da avaliação, o corpus multimodal rico do CUA-Suite suporta direções de pesquisa emergentes, incluindo análise de tela generalista, controlo espacial contínuo, modelação de recompensa baseada em vídeo e modelos de mundo visual. Todos os dados e modelos são disponibilizados publicamente.
English
Computer-use agents (CUAs) hold great promise for automating complex desktop workflows, yet progress toward general-purpose agents is bottlenecked by the scarcity of continuous, high-quality human demonstration videos. Recent work emphasizes that continuous video, not sparse screenshots, is the critical missing ingredient for scaling these agents. However, the largest existing open dataset, ScaleCUA, contains only 2 million screenshots, equating to less than 20 hours of video. To address this bottleneck, we introduce CUA-Suite, a large-scale ecosystem of expert video demonstrations and dense annotations for professional desktop computer-use agents. At its core is VideoCUA, which provides approximately 10,000 human-demonstrated tasks across 87 diverse applications with continuous 30 fps screen recordings, kinematic cursor traces, and multi-layerfed reasoning annotations, totaling approximately 55 hours and 6 million frames of expert video. Unlike sparse datasets that capture only final click coordinates, these continuous video streams preserve the full temporal dynamics of human interaction, forming a superset of information that can be losslessly transformed into the formats required by existing agent frameworks. CUA-Suite further provides two complementary resources: UI-Vision, a rigorous benchmark for evaluating grounding and planning capabilities in CUAs, and GroundCUA, a large-scale grounding dataset with 56K annotated screenshots and over 3.6 million UI element annotations. Preliminary evaluation reveals that current foundation action models struggle substantially with professional desktop applications (~60% task failure rate). Beyond evaluation, CUA-Suite's rich multimodal corpus supports emerging research directions including generalist screen parsing, continuous spatial control, video-based reward modeling, and visual world models. All data and models are publicly released.