ChatPaper.aiChatPaper

CUA-Skill: Sviluppare le Competenze per Agenti Utenti di Computer

CUA-Skill: Develop Skills for Computer Using Agent

January 28, 2026
Autori: Tianyi Chen, Yinheng Li, Michael Solodko, Sen Wang, Nan Jiang, Tingyuan Cui, Junheng Hao, Jongwoo Ko, Sara Abdali, Suzhen Zheng, Leon Xu, Hao Fan, Pashmina Cameron, Justin Wagle, Kazuhito Koishida
cs.AI

Abstract

Gli agenti che utilizzano computer (CUA) mirano a operare autonomamente sui sistemi informatici per completare compiti nel mondo reale. Tuttavia, i sistemi agentici esistenti rimangono difficili da scalare e sono inferiori alle prestazioni umane. Una limitazione chiave è l'assenza di astrazioni di abilità riutilizzabili e strutturate che catturino come gli umani interagiscono con le interfacce utente grafiche e come sfruttare queste abilità. Introduciamo CUA-Skill, una base di abilità agentica per l'uso del computer che codifica la conoscenza umana dell'uso del computer come abilità, accoppiate a grafi di esecuzione parametrici e di composizione. CUA-Skill è una libreria su larga scala di abilità accuratamente progettate che coprono applicazioni Windows comuni, fungendo da infrastruttura pratica e substrato di strumenti per lo sviluppo di agenti scalabili e affidabili. Basandoci su questa base di abilità, costruiamo CUA-Skill Agent, un agente end-to-end per l'uso del computer che supporta il recupero dinamico delle abilità, l'istanziazione degli argomenti e il ripristino da errori con consapevolezza della memoria. I nostri risultati dimostrano che CUA-Skill migliora sostanzialmente i tassi di successo dell'esecuzione e la robustezza su benchmark agentici end-to-end impegnativi, stabilendo una solida base per lo sviluppo futuro degli agenti che utilizzano computer. Su WindowsAgentArena, CUA-Skill Agent raggiunge uno stato dell'arte del 57,5% (miglior risultato su tre) di tasso di successo, risultando significativamente più efficiente rispetto agli approcci precedenti e contemporanei. La pagina del progetto è disponibile all'indirizzo https://microsoft.github.io/cua_skill/.
English
Computer-Using Agents (CUAs) aim to autonomously operate computer systems to complete real-world tasks. However, existing agentic systems remain difficult to scale and lag behind human performance. A key limitation is the absence of reusable and structured skill abstractions that capture how humans interact with graphical user interfaces and how to leverage these skills. We introduce CUA-Skill, a computer-using agentic skill base that encodes human computer-use knowledge as skills coupled with parameterized execution and composition graphs. CUA-Skill is a large-scale library of carefully engineered skills spanning common Windows applications, serving as a practical infrastructure and tool substrate for scalable, reliable agent development. Built upon this skill base, we construct CUA-Skill Agent, an end-to-end computer-using agent that supports dynamic skill retrieval, argument instantiation, and memory-aware failure recovery. Our results demonstrate that CUA-Skill substantially improves execution success rates and robustness on challenging end-to-end agent benchmarks, establishing a strong foundation for future computer-using agent development. On WindowsAgentArena, CUA-Skill Agent achieves state-of-the-art 57.5% (best of three) successful rate while being significantly more efficient than prior and concurrent approaches. The project page is available at https://microsoft.github.io/cua_skill/.
PDF132March 12, 2026