ChatPaper.aiChatPaper

CUA-Suite: Massale door mensen geannoteerde videodemonstraties voor computergebruik-agenten

CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents

March 25, 2026
Auteurs: Xiangru Jian, Shravan Nayak, Kevin Qinghong Lin, Aarash Feizi, Kaixin Li, Patrice Bechard, Spandana Gella, Sai Rajeswar
cs.AI

Samenvatting

Computer-use agents (CUAs) bieden grote belofte voor het automatiseren van complexe desktopwerkstromen, maar de vooruitgang naar algemene agents wordt belemmerd door het gebrek aan continue, hoogwaardige demonstratievideo's van menselijke gebruikers. Recent onderzoek benadrukt dat continue video, en niet losse schermafbeeldingen, de cruciale ontbrekende component is voor het opschalen van deze agents. De grootste bestaande open dataset, ScaleCUA, bevat echter slechts 2 miljoen schermafbeeldingen, wat overeenkomt met minder dan 20 uur video. Om dit knelpunt aan te pakken, introduceren we CUA-Suite, een grootschalig ecosysteem van expert-videodemonstraties en gedetailleerde annotaties voor professionele desktop computer-use agents. De kern hiervan is VideoCUA, dat ongeveer 10.000 door mensen uitgevoerde taken verspreid over 87 diverse applicaties biedt, met continue schermopnames van 30 fps, kinematische cursorsporen en gelaagde redeneerannotaties, in totaal ongeveer 55 uur en 6 miljoen frames aan expertvideo. In tegenstelling tot beperkte datasets die alleen uiteindelijke klikcoördinaten vastleggen, behouden deze continue videostreams de volledige temporele dynamiek van menselijke interactie, en vormen zo een superset van informatie die verliesvrij kan worden omgezet naar de formaten die vereist zijn door bestaande agent-frameworks. CUA-Suite biedt verder twee complementaire bronnen: UI-Vision, een rigoureus benchmark voor het evalueren van gronding- en planningscapaciteiten in CUAs, en GroundCUA, een grootschalige grondingsdataset met 56K geannoteerde schermafbeeldingen en meer dan 3,6 miljoen UI-elementannotaties. Een eerste evaluatie toont aan dat huidige foundation action-modellen aanzienlijk moeite hebben met professionele desktopapplicaties (~60% taakfoutpercentage). Naast evaluatie ondersteunt de rijke multimodale corpus van CUA-Suite opkomende onderzoeksrichtingen, waaronder algemene schermparsing, continue ruimtelijke controle, video-gebaseerde beloningsmodellering en visuele wereldmodellen. Alle data en modellen zijn openbaar vrijgegeven.
English
Computer-use agents (CUAs) hold great promise for automating complex desktop workflows, yet progress toward general-purpose agents is bottlenecked by the scarcity of continuous, high-quality human demonstration videos. Recent work emphasizes that continuous video, not sparse screenshots, is the critical missing ingredient for scaling these agents. However, the largest existing open dataset, ScaleCUA, contains only 2 million screenshots, equating to less than 20 hours of video. To address this bottleneck, we introduce CUA-Suite, a large-scale ecosystem of expert video demonstrations and dense annotations for professional desktop computer-use agents. At its core is VideoCUA, which provides approximately 10,000 human-demonstrated tasks across 87 diverse applications with continuous 30 fps screen recordings, kinematic cursor traces, and multi-layerfed reasoning annotations, totaling approximately 55 hours and 6 million frames of expert video. Unlike sparse datasets that capture only final click coordinates, these continuous video streams preserve the full temporal dynamics of human interaction, forming a superset of information that can be losslessly transformed into the formats required by existing agent frameworks. CUA-Suite further provides two complementary resources: UI-Vision, a rigorous benchmark for evaluating grounding and planning capabilities in CUAs, and GroundCUA, a large-scale grounding dataset with 56K annotated screenshots and over 3.6 million UI element annotations. Preliminary evaluation reveals that current foundation action models struggle substantially with professional desktop applications (~60% task failure rate). Beyond evaluation, CUA-Suite's rich multimodal corpus supports emerging research directions including generalist screen parsing, continuous spatial control, video-based reward modeling, and visual world models. All data and models are publicly released.
PDF693March 27, 2026