CUA-Skill: Sviluppare le Competenze per Agenti Utenti di Computer

Abstract

Gli agenti che utilizzano computer (CUA) mirano a operare autonomamente sui sistemi informatici per completare compiti nel mondo reale. Tuttavia, i sistemi agentici esistenti rimangono difficili da scalare e sono inferiori alle prestazioni umane. Una limitazione chiave è l'assenza di astrazioni di abilità riutilizzabili e strutturate che catturino come gli umani interagiscono con le interfacce utente grafiche e come sfruttare queste abilità. Introduciamo CUA-Skill, una base di abilità agentica per l'uso del computer che codifica la conoscenza umana dell'uso del computer come abilità, accoppiate a grafi di esecuzione parametrici e di composizione. CUA-Skill è una libreria su larga scala di abilità accuratamente progettate che coprono applicazioni Windows comuni, fungendo da infrastruttura pratica e substrato di strumenti per lo sviluppo di agenti scalabili e affidabili. Basandoci su questa base di abilità, costruiamo CUA-Skill Agent, un agente end-to-end per l'uso del computer che supporta il recupero dinamico delle abilità, l'istanziazione degli argomenti e il ripristino da errori con consapevolezza della memoria. I nostri risultati dimostrano che CUA-Skill migliora sostanzialmente i tassi di successo dell'esecuzione e la robustezza su benchmark agentici end-to-end impegnativi, stabilendo una solida base per lo sviluppo futuro degli agenti che utilizzano computer. Su WindowsAgentArena, CUA-Skill Agent raggiunge uno stato dell'arte del 57,5% (miglior risultato su tre) di tasso di successo, risultando significativamente più efficiente rispetto agli approcci precedenti e contemporanei. La pagina del progetto è disponibile all'indirizzo https://microsoft.github.io/cua_skill/.

English

Computer-Using Agents (CUAs) aim to autonomously operate computer systems to complete real-world tasks. However, existing agentic systems remain difficult to scale and lag behind human performance. A key limitation is the absence of reusable and structured skill abstractions that capture how humans interact with graphical user interfaces and how to leverage these skills. We introduce CUA-Skill, a computer-using agentic skill base that encodes human computer-use knowledge as skills coupled with parameterized execution and composition graphs. CUA-Skill is a large-scale library of carefully engineered skills spanning common Windows applications, serving as a practical infrastructure and tool substrate for scalable, reliable agent development. Built upon this skill base, we construct CUA-Skill Agent, an end-to-end computer-using agent that supports dynamic skill retrieval, argument instantiation, and memory-aware failure recovery. Our results demonstrate that CUA-Skill substantially improves execution success rates and robustness on challenging end-to-end agent benchmarks, establishing a strong foundation for future computer-using agent development. On WindowsAgentArena, CUA-Skill Agent achieves state-of-the-art 57.5% (best of three) successful rate while being significantly more efficient than prior and concurrent approaches. The project page is available at https://microsoft.github.io/cua_skill/.

CUA-Skill: Sviluppare le Competenze per Agenti Utenti di Computer

CUA-Skill: Develop Skills for Computer Using Agent

Abstract

Support