UltraCUA: Ein Grundlagenmodell für Computer-Nutzungsagenten mit hybridem Handeln

papers.abstract

Multimodale Agenten für die Computernutzung verlassen sich ausschließlich auf primitive Aktionen (Klicken, Tippen, Scrollen), die eine präzise visuelle Verankerung und lange Ausführungsketten erfordern, was zu kaskadierenden Fehlern und Leistungsengpässen führt. Während andere Agenten umfangreiche programmatische Schnittstellen (APIs, MCP-Server, Tools) nutzen, bleiben Computer-Nutzungs-Agenten (CUAs) von diesen Fähigkeiten isoliert. Wir stellen UltraCUA vor, ein Foundation-Modell, das diese Lücke durch hybride Aktionen schließt – nahtlose Integration von GUI-Primitiven mit hochrangigen programmatischen Tool-Aufrufen. Um dies zu erreichen, besteht unser Ansatz aus vier Schlüsselkomponenten: (1) einer automatisierten Pipeline, die programmatische Tools aus Software-Dokumentationen, Open-Source-Repositories und Code-Generierung skaliert; (2) einer synthetischen Daten-Engine, die über 17.000 verifizierbare Aufgaben erzeugt, die reale Computer-Nutzungsszenarien abdecken; (3) einer groß angelegten, hochwertigen Sammlung hybrider Aktions-Trajektorien mit sowohl niedrigrangigen GUI-Aktionen als auch hochrangigen programmatischen Tool-Aufrufen; und (4) einem zweistufigen Trainingspipeline, das überwachtes Fein-Tuning mit Online-Verstärkungslernen kombiniert, um strategische Wechsel zwischen niedrigrangigen und hochrangigen Aktionen zu ermöglichen. Experimente mit unseren 7B- und 32B-Modellen zeigen erhebliche Verbesserungen gegenüber state-of-the-art Agenten. Auf OSWorld erreichen UltraCUA-Modelle eine durchschnittliche relative Verbesserung von 22 % gegenüber Basismodellen, während sie 11 % schneller in Bezug auf Schritte sind. Eine Out-of-Domain-Evaluierung auf WindowsAgentArena zeigt, dass unser Modell eine Erfolgsrate von 21,7 % erreicht und damit Baseline-Modelle, die auf Windows-Daten trainiert wurden, übertrifft. Der hybride Aktionsmechanismus erweist sich als entscheidend, reduziert die Fehlerfortpflanzung und bewahrt gleichzeitig die Ausführungseffizienz.

English

Multimodal agents for computer use rely exclusively on primitive actions (click, type, scroll) that require accurate visual grounding and lengthy execution chains, leading to cascading failures and performance bottlenecks. While other agents leverage rich programmatic interfaces (APIs, MCP servers, tools), computer-use agents (CUAs) remain isolated from these capabilities. We present UltraCUA, a foundation model that bridges this gap through hybrid action -- seamlessly integrating GUI primitives with high-level programmatic tool calls. To achieve this, our approach comprises four key components: (1) an automated pipeline that scales programmatic tools from software documentation, open-source repositories, and code generation; (2) a synthetic data engine producing over 17,000 verifiable tasks spanning real-world computer-use scenarios; (3) a large-scale high-quality hybrid action trajectory collection with both low-level GUI actions and high-level programmatic tool calls; and (4) a two-stage training pipeline combining supervised fine-tuning with online reinforcement learning, enabling strategic alternation between low-level and high-level actions. Experiments with our 7B and 32B models demonstrate substantial improvements over state-of-the-art agents. On OSWorld, UltraCUA models achieve an average 22% relative improvement over base models, while being 11% faster in terms of steps. Out-of-domain evaluation on WindowsAgentArena shows our model reaches 21.7% success rate, outperforming baselines trained on Windows data. The hybrid action mechanism proves critical, reducing error propagation while maintaining execution efficiency.

UltraCUA: Ein Grundlagenmodell für Computer-Nutzungsagenten mit hybridem Handeln

UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action

papers.abstract

Support