CUA-スキル:コンピュータ利用エージェントのスキル開発
CUA-Skill: Develop Skills for Computer Using Agent
January 28, 2026
著者: Tianyi Chen, Yinheng Li, Michael Solodko, Sen Wang, Nan Jiang, Tingyuan Cui, Junheng Hao, Jongwoo Ko, Sara Abdali, Suzhen Zheng, Leon Xu, Hao Fan, Pashmina Cameron, Justin Wagle, Kazuhito Koishida
cs.AI
要旨
コンピュータ利用エージェント(CUA)は、実世界のタスクを完了するためにコンピュータシステムを自律的に操作することを目指している。しかし、既存のエージェントシステムはスケーリングが困難であり、人間の性能には及ばない。主な制限要因は、人間がグラフィカルユーザーインターフェースとどのように対話し、それらのスキルを活用するかを捕捉する、再利用可能で構造化されたスキル抽象化が欠如している点である。本論文では、CUA-Skillを提案する。これは、人間のコンピュータ利用知識を、パラメータ化された実行と合成グラフを伴うスキルとして符号化する、コンピュータ利用エージェントのスキル基盤である。CUA-Skillは、一般的なWindowsアプリケーションにわたる注意深く設計されたスキルからなる大規模ライブラリであり、スケーラブルで信頼性の高いエージェント開発のための実用的なインフラストラクチャおよびツール基盤として機能する。このスキル基盤に基づいて、動的スキル検索、引数インスタンス化、メモリを考慮した障害回復をサポートするエンドツーエンドのコンピュータ利用エージェントであるCUA-Skill Agentを構築する。評価結果は、CUA-Skillが困難なエンドツーエンドのエージェントベンチマークにおいて、実行成功率と堅牢性を大幅に向上させ、将来のコンピュータ利用エージェント開発の強固な基盤を確立することを実証している。WindowsAgentArenaにおいて、CUA-Skill Agentは最先端の57.5%(3回試行中の最高値)の成功率を達成し、従来および同時期のアプローチよりも大幅に効率的である。プロジェクトページは https://microsoft.github.io/cua_skill/ で公開されている。
English
Computer-Using Agents (CUAs) aim to autonomously operate computer systems to complete real-world tasks. However, existing agentic systems remain difficult to scale and lag behind human performance. A key limitation is the absence of reusable and structured skill abstractions that capture how humans interact with graphical user interfaces and how to leverage these skills. We introduce CUA-Skill, a computer-using agentic skill base that encodes human computer-use knowledge as skills coupled with parameterized execution and composition graphs. CUA-Skill is a large-scale library of carefully engineered skills spanning common Windows applications, serving as a practical infrastructure and tool substrate for scalable, reliable agent development. Built upon this skill base, we construct CUA-Skill Agent, an end-to-end computer-using agent that supports dynamic skill retrieval, argument instantiation, and memory-aware failure recovery. Our results demonstrate that CUA-Skill substantially improves execution success rates and robustness on challenging end-to-end agent benchmarks, establishing a strong foundation for future computer-using agent development. On WindowsAgentArena, CUA-Skill Agent achieves state-of-the-art 57.5% (best of three) successful rate while being significantly more efficient than prior and concurrent approaches. The project page is available at https://microsoft.github.io/cua_skill/.