ChatPaper.aiChatPaper

CUA-Skill: Развитие навыков для компьютерного агента

CUA-Skill: Develop Skills for Computer Using Agent

January 28, 2026
Авторы: Tianyi Chen, Yinheng Li, Michael Solodko, Sen Wang, Nan Jiang, Tingyuan Cui, Junheng Hao, Jongwoo Ko, Sara Abdali, Suzhen Zheng, Leon Xu, Hao Fan, Pashmina Cameron, Justin Wagle, Kazuhito Koishida
cs.AI

Аннотация

Агенты, использующие компьютеры (Computer-Using Agents, CUA), ставят целью автономное управление компьютерными системами для выполнения реальных задач. Однако существующие агентные системы по-прежнему сложно масштабировать, и они отстают по производительности от человека. Ключевым ограничением является отсутствие переиспользуемых и структурированных абстракций навыков, которые бы фиксировали то, как люди взаимодействуют с графическими пользовательскими интерфейсами, и то, как использовать эти навыки. Мы представляем CUA-Skill — базу навыков для компьютерных агентов, которая кодирует знания человека о работе с компьютером в виде навыков, связанных с параметризованными графами выполнения и композиции. CUA-Skill — это масштабируемая библиотека тщательно разработанных навыков, охватывающих распространенные приложения Windows, которая служит практической инфраструктурой и инструментальной основой для создания масштабируемых и надежных агентов. На основе этой базы навыков мы создаем CUA-Skill Agent — сквозного агента для работы с компьютером, который поддерживает динамическое извлечение навыков, инстанцирование аргументов и восстановление после сбоев с учетом памяти. Наши результаты демонстрируют, что CUA-Skill существенно повышает процент успешного выполнения задач и устойчивость на сложных сквозных агентных бенчмарках, закладывая прочную основу для будущей разработки компьютерных агентов. На WindowsAgentArena агент CUA-Skill достигает наилучшего показателя в 57,5% успешных выполнений (лучший из трех запусков), будучи при этом значительно эффективнее предыдущих и современных подходов. Страница проекта доступна по адресу https://microsoft.github.io/cua_skill/.
English
Computer-Using Agents (CUAs) aim to autonomously operate computer systems to complete real-world tasks. However, existing agentic systems remain difficult to scale and lag behind human performance. A key limitation is the absence of reusable and structured skill abstractions that capture how humans interact with graphical user interfaces and how to leverage these skills. We introduce CUA-Skill, a computer-using agentic skill base that encodes human computer-use knowledge as skills coupled with parameterized execution and composition graphs. CUA-Skill is a large-scale library of carefully engineered skills spanning common Windows applications, serving as a practical infrastructure and tool substrate for scalable, reliable agent development. Built upon this skill base, we construct CUA-Skill Agent, an end-to-end computer-using agent that supports dynamic skill retrieval, argument instantiation, and memory-aware failure recovery. Our results demonstrate that CUA-Skill substantially improves execution success rates and robustness on challenging end-to-end agent benchmarks, establishing a strong foundation for future computer-using agent development. On WindowsAgentArena, CUA-Skill Agent achieves state-of-the-art 57.5% (best of three) successful rate while being significantly more efficient than prior and concurrent approaches. The project page is available at https://microsoft.github.io/cua_skill/.
PDF132March 12, 2026