CUA-Suite: Massive Demonstrazioni Video Annotate da Umani per Agenti di Interazione Computerizzata
CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents
March 25, 2026
Autori: Xiangru Jian, Shravan Nayak, Kevin Qinghong Lin, Aarash Feizi, Kaixin Li, Patrice Bechard, Spandana Gella, Sai Rajeswar
cs.AI
Abstract
Gli agenti per l'uso del computer (CUA) sono estremamente promettenti per l'automazione di flussi di lavoro desktop complessi, tuttavia i progressi verso agenti a scopo generale sono limitati dalla scarsità di video dimostrativi umani continui e di alta qualità. Ricerche recenti sottolineano che il video continuo, non screenshot sporadici, è l'ingrediente critico mancante per scalare questi agenti. Tuttavia, il più grande dataset open esistente, ScaleCUA, contiene solo 2 milioni di screenshot, equivalenti a meno di 20 ore di video. Per affrontare questo collo di bottiglia, introduciamo CUA-Suite, un ecosistema su larga scala di dimostrazioni video esperte e annotazioni dense per agenti desktop professionali. Il suo nucleo è VideoCUA, che fornisce circa 10.000 task dimostrati da esseri umani su 87 applicazioni diverse con registrazioni schermo continue a 30 fps, tracce cinematiche del cursore e annotazioni di ragionamento multi-livello, per un totale di circa 55 ore e 6 milioni di frame di video esperto. A differenza dei dataset sparsi che catturano solo le coordinate finali del clic, questi flussi video continui preservano la completa dinamica temporale dell'interazione umana, formando un sovrainsieme di informazioni che può essere trasformato senza perdite nei formati richiesti dai framework di agenti esistenti. CUA-Suite fornisce inoltre due risorse complementari: UI-Vision, un benchmark rigoroso per valutare le capacità di grounding e pianificazione nei CUA, e GroundCUA, un dataset di grounding su larga scala con 56K screenshot annotati e oltre 3,6 milioni di annotazioni di elementi UI. Una valutazione preliminare rivela che gli attuali modelli d'azione di base (foundation action models) hanno notevoli difficoltà con le applicazioni desktop professionali (~60% di tasso di fallimento dei task). Oltre alla valutazione, il ricco corpus multimodale di CUA-Suite supporta nuove direzioni di ricerca, tra cui l'analisi generale dello schermo, il controllo spaziale continuo, la modellazione delle ricompense basata su video e i modelli del mondo visivo. Tutti i dati e i modelli sono rilasciati pubblicamente.
English
Computer-use agents (CUAs) hold great promise for automating complex desktop workflows, yet progress toward general-purpose agents is bottlenecked by the scarcity of continuous, high-quality human demonstration videos. Recent work emphasizes that continuous video, not sparse screenshots, is the critical missing ingredient for scaling these agents. However, the largest existing open dataset, ScaleCUA, contains only 2 million screenshots, equating to less than 20 hours of video. To address this bottleneck, we introduce CUA-Suite, a large-scale ecosystem of expert video demonstrations and dense annotations for professional desktop computer-use agents. At its core is VideoCUA, which provides approximately 10,000 human-demonstrated tasks across 87 diverse applications with continuous 30 fps screen recordings, kinematic cursor traces, and multi-layerfed reasoning annotations, totaling approximately 55 hours and 6 million frames of expert video. Unlike sparse datasets that capture only final click coordinates, these continuous video streams preserve the full temporal dynamics of human interaction, forming a superset of information that can be losslessly transformed into the formats required by existing agent frameworks. CUA-Suite further provides two complementary resources: UI-Vision, a rigorous benchmark for evaluating grounding and planning capabilities in CUAs, and GroundCUA, a large-scale grounding dataset with 56K annotated screenshots and over 3.6 million UI element annotations. Preliminary evaluation reveals that current foundation action models struggle substantially with professional desktop applications (~60% task failure rate). Beyond evaluation, CUA-Suite's rich multimodal corpus supports emerging research directions including generalist screen parsing, continuous spatial control, video-based reward modeling, and visual world models. All data and models are publicly released.