CUA-Skill: Desenvolver Habilidades para Agentes de Uso de Computador
CUA-Skill: Develop Skills for Computer Using Agent
January 28, 2026
Autores: Tianyi Chen, Yinheng Li, Michael Solodko, Sen Wang, Nan Jiang, Tingyuan Cui, Junheng Hao, Jongwoo Ko, Sara Abdali, Suzhen Zheng, Leon Xu, Hao Fan, Pashmina Cameron, Justin Wagle, Kazuhito Koishida
cs.AI
Resumo
Os Agentes de Utilização de Computadores (CUAs) visam operar sistemas informáticos de forma autónoma para completar tarefas do mundo real. No entanto, os sistemas agentes existentes continuam difíceis de dimensionar e ficam aquém do desempenho humano. Uma limitação fundamental é a ausência de abstrações de habilidades reutilizáveis e estruturadas que capturem a forma como os humanos interagem com interfaces gráficas e como alavancar essas habilidades. Apresentamos o CUA-Skill, uma base de habilidades para agentes de utilização de computadores que codifica o conhecimento humano de uso do computador como habilidades, associadas a grafos de execução parametrizada e de composição. O CUA-Skill é uma biblioteca em larga escala de habilidades cuidadosamente elaboradas que abrangem aplicações comuns do Windows, servindo como uma infraestrutura prática e um substrato de ferramentas para o desenvolvimento de agentes escaláveis e fiáveis. Com base nesta base de habilidades, construímos o Agente CUA-Skill, um agente de utilização de computadores de ponta a ponta que suporta a recuperação dinâmica de habilidades, a instanciação de argumentos e a recuperação de falhas com consciência de memória. Os nossos resultados demonstram que o CUA-Skill melhora substancialmente as taxas de sucesso de execução e a robustez em benchmarks de agentes de ponta a ponta desafiadores, estabelecendo uma base sólida para o futuro desenvolvimento de agentes de utilização de computadores. No WindowsAgentArena, o Agente CUA-Skill alcança um estado da arte de 57,5% (melhor de três) de taxa de sucesso, sendo significativamente mais eficiente do que abordagens anteriores e concorrentes. A página do projeto está disponível em https://microsoft.github.io/cua_skill/.
English
Computer-Using Agents (CUAs) aim to autonomously operate computer systems to complete real-world tasks. However, existing agentic systems remain difficult to scale and lag behind human performance. A key limitation is the absence of reusable and structured skill abstractions that capture how humans interact with graphical user interfaces and how to leverage these skills. We introduce CUA-Skill, a computer-using agentic skill base that encodes human computer-use knowledge as skills coupled with parameterized execution and composition graphs. CUA-Skill is a large-scale library of carefully engineered skills spanning common Windows applications, serving as a practical infrastructure and tool substrate for scalable, reliable agent development. Built upon this skill base, we construct CUA-Skill Agent, an end-to-end computer-using agent that supports dynamic skill retrieval, argument instantiation, and memory-aware failure recovery. Our results demonstrate that CUA-Skill substantially improves execution success rates and robustness on challenging end-to-end agent benchmarks, establishing a strong foundation for future computer-using agent development. On WindowsAgentArena, CUA-Skill Agent achieves state-of-the-art 57.5% (best of three) successful rate while being significantly more efficient than prior and concurrent approaches. The project page is available at https://microsoft.github.io/cua_skill/.