CUA-Habilidad: Desarrollar Habilidades para Agentes de Uso Informático
CUA-Skill: Develop Skills for Computer Using Agent
January 28, 2026
Autores: Tianyi Chen, Yinheng Li, Michael Solodko, Sen Wang, Nan Jiang, Tingyuan Cui, Junheng Hao, Jongwoo Ko, Sara Abdali, Suzhen Zheng, Leon Xu, Hao Fan, Pashmina Cameron, Justin Wagle, Kazuhito Koishida
cs.AI
Resumen
Los Agentes de Uso Informático (CUA) tienen como objetivo operar de forma autónoma sistemas informáticos para completar tareas del mundo real. Sin embargo, los sistemas agentivos existentes siguen siendo difíciles de escalar y se quedan rezagados respecto al rendimiento humano. Una limitación clave es la ausencia de abstracciones de habilidades reutilizables y estructuradas que capturen cómo los humanos interactúan con las interfaces gráficas de usuario y cómo aprovechar estas habilidades. Presentamos CUA-Skill, una base de habilidades para agentes de uso informático que codifica el conocimiento humano sobre el uso del ordenador como habilidades, junto con grafos de ejecución parametrizada y de composición. CUA-Skill es una biblioteca a gran escala de habilidades cuidadosamente diseñadas que abarcan aplicaciones comunes de Windows, sirviendo como infraestructura práctica y sustrato de herramientas para el desarrollo de agentes escalables y confiables. Sobre esta base de habilidades, construimos CUA-Skill Agent, un agente de uso informático integral que soporta la recuperación dinámica de habilidades, la instanciación de argumentos y la recuperación ante fallos con conciencia de memoria. Nuestros resultados demuestran que CUA-Skill mejora sustancialmente las tasas de éxito de ejecución y la robustez en benchmarks agentivos integrales desafiantes, estableciendo una base sólida para el futuro desarrollo de agentes de uso informático. En WindowsAgentArena, CUA-Skill Agent alcanza un estado del arte del 57.5% (mejor de tres intentos) de tasa de éxito, siendo significativamente más eficiente que enfoques previos y contemporáneos. La página del proyecto está disponible en https://microsoft.github.io/cua_skill/.
English
Computer-Using Agents (CUAs) aim to autonomously operate computer systems to complete real-world tasks. However, existing agentic systems remain difficult to scale and lag behind human performance. A key limitation is the absence of reusable and structured skill abstractions that capture how humans interact with graphical user interfaces and how to leverage these skills. We introduce CUA-Skill, a computer-using agentic skill base that encodes human computer-use knowledge as skills coupled with parameterized execution and composition graphs. CUA-Skill is a large-scale library of carefully engineered skills spanning common Windows applications, serving as a practical infrastructure and tool substrate for scalable, reliable agent development. Built upon this skill base, we construct CUA-Skill Agent, an end-to-end computer-using agent that supports dynamic skill retrieval, argument instantiation, and memory-aware failure recovery. Our results demonstrate that CUA-Skill substantially improves execution success rates and robustness on challenging end-to-end agent benchmarks, establishing a strong foundation for future computer-using agent development. On WindowsAgentArena, CUA-Skill Agent achieves state-of-the-art 57.5% (best of three) successful rate while being significantly more efficient than prior and concurrent approaches. The project page is available at https://microsoft.github.io/cua_skill/.