CUA-Skill : Développer des compétences pour les agents utilisateurs d'ordinateurs

Résumé

Les agents informatiques (Computer-Using Agents, CUA) visent à utiliser de manière autonome les systèmes informatiques pour accomplir des tâches du monde réel. Cependant, les systèmes agentiques existants restent difficiles à mettre à l'échelle et leurs performances sont inférieures à celles des humains. Une limitation clé est l'absence d'abstractions de compétences structurées et réutilisables qui capturent la manière dont les humains interagissent avec les interfaces graphiques et comment exploiter ces compétences. Nous présentons CUA-Skill, une base de compétences pour agents informatiques qui encode les connaissances humaines en matière d'utilisation de l'ordinateur sous forme de compétences couplées à des graphes d'exécution paramétrés et de composition. CUA-Skill est une bibliothèque à grande échelle de compétences soigneusement conçues couvrant les applications Windows courantes, servant d'infrastructure pratique et de substrat d'outils pour le développement d'agents évolutifs et fiables. Sur la base de cette bibliothèque de compétences, nous construisons CUA-Skill Agent, un agent informatique de bout en bout qui prend en charge la récupération dynamique des compétences, l'instanciation des arguments et la récupération après erreur avec mémoire contextuelle. Nos résultats démontrent que CUA-Skill améliore considérablement les taux de réussite d'exécution et la robustesse sur des benchmarks agentiques de bout en bout exigeants, établissant une base solide pour le futur développement des agents informatiques. Sur WindowsAgentArena, CUA-Skill Agent atteint un taux de réussite record de 57,5 % (meilleur de trois essais) tout en étant significativement plus efficace que les approches antérieures et concurrentes. La page du projet est disponible à l'adresse https://microsoft.github.io/cua_skill/.

English

Computer-Using Agents (CUAs) aim to autonomously operate computer systems to complete real-world tasks. However, existing agentic systems remain difficult to scale and lag behind human performance. A key limitation is the absence of reusable and structured skill abstractions that capture how humans interact with graphical user interfaces and how to leverage these skills. We introduce CUA-Skill, a computer-using agentic skill base that encodes human computer-use knowledge as skills coupled with parameterized execution and composition graphs. CUA-Skill is a large-scale library of carefully engineered skills spanning common Windows applications, serving as a practical infrastructure and tool substrate for scalable, reliable agent development. Built upon this skill base, we construct CUA-Skill Agent, an end-to-end computer-using agent that supports dynamic skill retrieval, argument instantiation, and memory-aware failure recovery. Our results demonstrate that CUA-Skill substantially improves execution success rates and robustness on challenging end-to-end agent benchmarks, establishing a strong foundation for future computer-using agent development. On WindowsAgentArena, CUA-Skill Agent achieves state-of-the-art 57.5% (best of three) successful rate while being significantly more efficient than prior and concurrent approaches. The project page is available at https://microsoft.github.io/cua_skill/.

CUA-Skill : Développer des compétences pour les agents utilisateurs d'ordinateurs

CUA-Skill: Develop Skills for Computer Using Agent

Résumé

Support