CUA-Suite: Demostraciones Masivas de Video Anotadas por Humanos para Agentes de Uso Informático
CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents
March 25, 2026
Autores: Xiangru Jian, Shravan Nayak, Kevin Qinghong Lin, Aarash Feizi, Kaixin Li, Patrice Bechard, Spandana Gella, Sai Rajeswar
cs.AI
Resumen
Los agentes de uso informático (CUA) son muy prometedores para automatizar flujos de trabajo complejos en el escritorio, sin embargo, el progreso hacia agentes de propósito general se ve limitado por la escasez de videos de demostración humana continuos y de alta calidad. Trabajos recientes enfatizan que el video continuo, y no las capturas de pantalla dispersas, es el ingrediente crítico que falta para escalar estos agentes. No obstante, el mayor conjunto de datos abierto existente, ScaleCUA, contiene solo 2 millones de capturas de pantalla, equivalentes a menos de 20 horas de video. Para abordar este cuello de botella, presentamos CUA-Suite, un ecosistema a gran escala de demostraciones en video de expertos y anotaciones densas para agentes profesionales de uso informático en el escritorio. Su núcleo es VideoCUA, que proporciona aproximadamente 10,000 tareas demostradas por humanos en 87 aplicaciones diversas, con grabaciones continuas de pantalla a 30 fps, trazas cinemáticas del cursor y anotaciones de razonamiento multicapa, totalizando aproximadamente 55 horas y 6 millones de fotogramas de video experto. A diferencia de los conjuntos de datos dispersos que solo capturan las coordenadas finales del clic, estos flujos de video continuos preservan la dinámica temporal completa de la interacción humana, formando un superconjunto de información que puede transformarse sin pérdidas en los formatos requeridos por los marcos de agentes existentes. CUA-Suite proporciona además dos recursos complementarios: UI-Vision, un benchmark riguroso para evaluar capacidades de grounding y planificación en CUAs, y GroundCUA, un conjunto de datos de grounding a gran escala con 56K capturas de pantalla anotadas y más de 3.6 millones de anotaciones de elementos de interfaz de usuario. La evaluación preliminar revela que los modelos de acción base actuales tienen dificultades sustanciales con las aplicaciones profesionales de escritorio (~60% de tasa de fallo en tareas). Más allá de la evaluación, el rico corpus multimodal de CUA-Suite respalda direcciones de investigación emergentes, incluyendo el análisis de pantalla generalista, el control espacial continuo, el modelado de recompensas basado en video y los modelos de mundo visual. Todos los datos y modelos se publican abiertamente.
English
Computer-use agents (CUAs) hold great promise for automating complex desktop workflows, yet progress toward general-purpose agents is bottlenecked by the scarcity of continuous, high-quality human demonstration videos. Recent work emphasizes that continuous video, not sparse screenshots, is the critical missing ingredient for scaling these agents. However, the largest existing open dataset, ScaleCUA, contains only 2 million screenshots, equating to less than 20 hours of video. To address this bottleneck, we introduce CUA-Suite, a large-scale ecosystem of expert video demonstrations and dense annotations for professional desktop computer-use agents. At its core is VideoCUA, which provides approximately 10,000 human-demonstrated tasks across 87 diverse applications with continuous 30 fps screen recordings, kinematic cursor traces, and multi-layerfed reasoning annotations, totaling approximately 55 hours and 6 million frames of expert video. Unlike sparse datasets that capture only final click coordinates, these continuous video streams preserve the full temporal dynamics of human interaction, forming a superset of information that can be losslessly transformed into the formats required by existing agent frameworks. CUA-Suite further provides two complementary resources: UI-Vision, a rigorous benchmark for evaluating grounding and planning capabilities in CUAs, and GroundCUA, a large-scale grounding dataset with 56K annotated screenshots and over 3.6 million UI element annotations. Preliminary evaluation reveals that current foundation action models struggle substantially with professional desktop applications (~60% task failure rate). Beyond evaluation, CUA-Suite's rich multimodal corpus supports emerging research directions including generalist screen parsing, continuous spatial control, video-based reward modeling, and visual world models. All data and models are publicly released.