CUA-Fertigkeit: Entwicklung von Fähigkeiten für computernutzende Agenten

Zusammenfassung

Computernutzende Agenten (CUAs) zielen darauf ab, Computersysteme autonom zu bedienen, um reale Aufgaben zu erfüllen. Allerdings bleiben bestehende agentenbasierte Systeme schwer skalierbar und liegen hinter der menschlichen Leistungsfähigkeit zurück. Eine wesentliche Einschränkung ist das Fehlen wiederverwendbarer und strukturierter Fähigkeitsabstraktionen, die erfassen, wie Menschen mit grafischen Benutzeroberflächen interagieren und wie diese Fähigkeiten genutzt werden können. Wir stellen CUA-Skill vor, eine Wissensbasis für computernutzende Agenten, die menschliches Computeranwendungswissen als Fähigkeiten kodiert, die mit parametrisierter Ausführung und Kompositionsgraphen verknüpft sind. CUA-Skill ist eine umfangreiche Bibliothek sorgfältig entwickelter Fähigkeiten, die gängige Windows-Anwendungen abdeckt und als praktische Infrastruktur und Werkzeuggrundlage für skalierbare, zuverlässige Agentenentwicklung dient. Aufbauend auf dieser Fähigkeitsbasis entwickeln wir CUA-Skill Agent, einen durchgängigen computernutzenden Agenten, der dynamische Fähigkeitsabfrage, Argumentinstanziierung und speicherbewusste Fehlerbehebung unterstützt. Unsere Ergebnisse zeigen, dass CUA-Skill die Ausführungs-Erfolgsquote und Robustheit anspruchsvoller End-to-End-Agenten-Benchmarks erheblich verbessert und damit eine solide Grundlage für die zukünftige Entwicklung computernutzender Agenten schafft. Auf WindowsAgentArena erreicht CUA-Skill Agent mit 57,5 % (bester von drei Versuchen) eine state-of-the-art Erfolgsquote und ist dabei deutlich effizienter als frühere und parallele Ansätze. Die Projektseite ist unter https://microsoft.github.io/cua_skill/ verfügbar.

English

Computer-Using Agents (CUAs) aim to autonomously operate computer systems to complete real-world tasks. However, existing agentic systems remain difficult to scale and lag behind human performance. A key limitation is the absence of reusable and structured skill abstractions that capture how humans interact with graphical user interfaces and how to leverage these skills. We introduce CUA-Skill, a computer-using agentic skill base that encodes human computer-use knowledge as skills coupled with parameterized execution and composition graphs. CUA-Skill is a large-scale library of carefully engineered skills spanning common Windows applications, serving as a practical infrastructure and tool substrate for scalable, reliable agent development. Built upon this skill base, we construct CUA-Skill Agent, an end-to-end computer-using agent that supports dynamic skill retrieval, argument instantiation, and memory-aware failure recovery. Our results demonstrate that CUA-Skill substantially improves execution success rates and robustness on challenging end-to-end agent benchmarks, establishing a strong foundation for future computer-using agent development. On WindowsAgentArena, CUA-Skill Agent achieves state-of-the-art 57.5% (best of three) successful rate while being significantly more efficient than prior and concurrent approaches. The project page is available at https://microsoft.github.io/cua_skill/.

CUA-Fertigkeit: Entwicklung von Fähigkeiten für computernutzende Agenten

CUA-Skill: Develop Skills for Computer Using Agent

Zusammenfassung

Support