ChatPaper.aiChatPaper

CUA-Suite : Démonstrations vidéo massives annotées par des humains pour les agents d'interaction informatique

CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents

March 25, 2026
Auteurs: Xiangru Jian, Shravan Nayak, Kevin Qinghong Lin, Aarash Feizi, Kaixin Li, Patrice Bechard, Spandana Gella, Sai Rajeswar
cs.AI

Résumé

Les agents d'utilisation informatique (CUA) présentent un potentiel considérable pour automatiser les workflows complexes sur ordinateur, mais les progrès vers des agents généralistes sont freinés par la rareté des vidéos de démonstration humaine continues et de haute qualité. Des travaux récents soulignent que la vidéo continue, et non des captures d'écran sporadiques, est l'ingrédient critique manquant pour passer ces agents à l'échelle. Cependant, le plus grand jeu de données ouvert existant, ScaleCUA, ne contient que 2 millions de captures d'écran, équivalant à moins de 20 heures de vidéo. Pour résoudre ce goulot d'étranglement, nous présentons CUA-Suite, un écosystème à grande échelle de démonstrations vidéo expertes et d'annotations denses pour les agents professionnels d'utilisation d'ordinateurs de bureau. Son cœur est VideoCUA, qui fournit environ 10 000 tâches démontrées par des humains sur 87 applications diverses avec des enregistrements d'écran continus à 30 ips, des traces cinématiques du curseur et des annotations de raisonnement multicouches, totalisant environ 55 heures et 6 millions d'images de vidéo experte. Contrairement aux jeux de données épars qui ne capturent que les coordonnées finales des clics, ces flux vidéo continus préservent la dynamique temporelle complète de l'interaction humaine, formant un sur-ensemble d'informations pouvant être transformé sans perte dans les formats requis par les frameworks d'agents existants. CUA-Suite fournit en outre deux ressources complémentaires : UI-Vision, un benchmark rigoureux pour évaluer les capacités de grounding et de planification des CUA, et GroundCUA, un jeu de données de grounding à grande échelle avec 56 000 captures d'écran annotées et plus de 3,6 millions d'annotations d'éléments d'interface utilisateur. Une évaluation préliminaire révèle que les modèles d'action de base actuels éprouvent des difficultés substantielles avec les applications professionnelles de bureau (~60 % d'échec des tâches). Au-delà de l'évaluation, le riche corpus multimodal de CUA-Suite soutient des axes de recherche émergents, notamment l'analyse d'écran généraliste, le contrôle spatial continu, la modélisation de récompense basée vidéo et les modèles de monde visuel. Toutes les données et tous les modèles sont publiés publiquement.
English
Computer-use agents (CUAs) hold great promise for automating complex desktop workflows, yet progress toward general-purpose agents is bottlenecked by the scarcity of continuous, high-quality human demonstration videos. Recent work emphasizes that continuous video, not sparse screenshots, is the critical missing ingredient for scaling these agents. However, the largest existing open dataset, ScaleCUA, contains only 2 million screenshots, equating to less than 20 hours of video. To address this bottleneck, we introduce CUA-Suite, a large-scale ecosystem of expert video demonstrations and dense annotations for professional desktop computer-use agents. At its core is VideoCUA, which provides approximately 10,000 human-demonstrated tasks across 87 diverse applications with continuous 30 fps screen recordings, kinematic cursor traces, and multi-layerfed reasoning annotations, totaling approximately 55 hours and 6 million frames of expert video. Unlike sparse datasets that capture only final click coordinates, these continuous video streams preserve the full temporal dynamics of human interaction, forming a superset of information that can be losslessly transformed into the formats required by existing agent frameworks. CUA-Suite further provides two complementary resources: UI-Vision, a rigorous benchmark for evaluating grounding and planning capabilities in CUAs, and GroundCUA, a large-scale grounding dataset with 56K annotated screenshots and over 3.6 million UI element annotations. Preliminary evaluation reveals that current foundation action models struggle substantially with professional desktop applications (~60% task failure rate). Beyond evaluation, CUA-Suite's rich multimodal corpus supports emerging research directions including generalist screen parsing, continuous spatial control, video-based reward modeling, and visual world models. All data and models are publicly released.
PDF693March 27, 2026