CUA-Vaardigheid: Vaardigheden ontwikkelen voor computergebruikende agenten

Samenvatting

Computer-Using Agents (CUA's) hebben als doel om computersystemen autonoom te bedienen om taken in de echte wereld te voltooien. Bestaande agent-systemen zijn echter nog steeds moeilijk op te schalen en presteren minder goed dan mensen. Een belangrijke beperking is het ontbreken van herbruikbare en gestructureerde vaardigheidsabstracties die vastleggen hoe mensen omgaan met grafische gebruikersomgevingen en hoe deze vaardigheden kunnen worden benut. Wij introduceren CUA-Skill, een vaardigheidsbasis voor computergebruikende agents, die menselijke kennis over computergebruik codeert als vaardigheden, gekoppeld aan geparametriseerde uitvoerings- en samenstellingsgrafieken. CUA-Skill is een grootschalige bibliotheek van zorgvuldig ontworpen vaardigheden voor veelgebruikte Windows-toepassingen, en dient als een praktische infrastructuur en tool-substraat voor de ontwikkeling van schaalbare, betrouwbare agents. Gebaseerd op deze vaardigheidsbasis construeren we CUA-Skill Agent, een end-to-end computergebruikende agent die dynamische vaardigheidsretrieval, argumentinstantiatie en geheugenbewust herstel bij falen ondersteunt. Onze resultaten tonen aan dat CUA-Skill de slagingspercentages en robuustheid aanzienlijk verbetert op uitdagende end-to-end agent benchmarks, en zo een sterke basis legt voor toekomstige ontwikkeling van computergebruikende agents. Op WindowsAgentArena behaalt CUA-Skill Agent een state-of-the-art slagingspercentage van 57,5% (beste van drie) en is tegelijkertijd aanzienlijk efficiënter dan eerdere en gelijktijdige benaderingen. De projectpagina is beschikbaar op https://microsoft.github.io/cua_skill/.

English

Computer-Using Agents (CUAs) aim to autonomously operate computer systems to complete real-world tasks. However, existing agentic systems remain difficult to scale and lag behind human performance. A key limitation is the absence of reusable and structured skill abstractions that capture how humans interact with graphical user interfaces and how to leverage these skills. We introduce CUA-Skill, a computer-using agentic skill base that encodes human computer-use knowledge as skills coupled with parameterized execution and composition graphs. CUA-Skill is a large-scale library of carefully engineered skills spanning common Windows applications, serving as a practical infrastructure and tool substrate for scalable, reliable agent development. Built upon this skill base, we construct CUA-Skill Agent, an end-to-end computer-using agent that supports dynamic skill retrieval, argument instantiation, and memory-aware failure recovery. Our results demonstrate that CUA-Skill substantially improves execution success rates and robustness on challenging end-to-end agent benchmarks, establishing a strong foundation for future computer-using agent development. On WindowsAgentArena, CUA-Skill Agent achieves state-of-the-art 57.5% (best of three) successful rate while being significantly more efficient than prior and concurrent approaches. The project page is available at https://microsoft.github.io/cua_skill/.

CUA-Vaardigheid: Vaardigheden ontwikkelen voor computergebruikende agenten

CUA-Skill: Develop Skills for Computer Using Agent

Samenvatting

Support