ProCUA-SFT Technischer Bericht

Zusammenfassung

Das Training von Computer-Use-Agenten (CUAs) – Modelle, die über Screenshots und Tastatur-/Mausaktionen mit grafischen Desktops interagieren – erfordert umfangreiche, vielfältige Trajektoriendaten, die in vollständigen Desktop-Umgebungen gesammelt werden. Die größte öffentliche Ressource, AgentNet (22.500 menschliche Trajektorien), führt bei Verwendung für überwachtes Feintuning (SFT) zu negativem Transfer: Wenn das Training von UI-TARS 7B auf AgentNet fortgesetzt wird, sinkt die Erfolgsrate bei OSWorld von 26,3 % auf 8–10 %. Wir stellen ProCUA-SFT vor, einen Datensatz mit 3,1 Millionen schrittweisen SFT-Stichproben, gewonnen aus 93.000 synthetischen Trajektorien aus 2.484 Anwendungskombinationen. Der Datensatz wird durch eine vollständig automatisierte Pipeline erstellt, die (i) fundierte Aufgaben auf Live-Desktops mit realen Inhalten anreichert – 912 Tabellenkalkulationen aus SpreadsheetBench, etwa 10.000 frei lizenzierte Präsentationen aus Zenodo10K sowie Multi-Anwendungs-OSWorld-Konfigurationen – und (ii) die Durchführbarkeit jeder Aufgabe vor dem Ausrollen durch eine binäre Vorbedingungsprüfung verifiziert. Ein einzelnes VLM (Kimi-K2.5) fungiert als Zielgenerator, Vorbedingungsprüfer und Trajektorienausführer, wodurch Lücken zwischen Planer- und Aktor-Fähigkeiten beseitigt werden. Jede Trajektorie wird in Schritt-Präfix-Stichproben expandiert, die exakt das bei der Inferenz gesehene Kontextlayout reproduzieren. Feintuning von UI-TARS 7B auf ProCUA-SFT für eine Epoche ergibt 45,0 % bei OSWorld – eine Verbesserung um 18,7 Prozentpunkte gegenüber dem Basismodell und über 35 % über den mit AgentNet trainierten Gegenstücken. Ein Teil von ProCUA wurde in die Trainingsdaten für das Nemotron 3 Nano Omni-Modell aufgenommen und trug zu dessen Computer-Use-Fähigkeiten bei.

English

Training computer-use agents (CUAs) -- models that interact with graphical desktops through screenshots and keyboard/mouse actions -- requires large-scale, diverse trajectory data collected in full desktop environments. The largest public resource, AgentNet (22.5K human trajectories), leads to negative transfer when used for supervised fine-tuning (SFT): continuing training UI-TARS 7B on AgentNet causes OSWorld success rate to fall from 26.3% to 8-10%. We present ProCUA-SFT, a dataset of 3.1M step-level SFT samples distilled from 93K synthetic trajectories across 2,484 application combinations. The dataset is produced by a fully automated pipeline that (i) synthesizes grounded tasks on live desktops seeded with real-world content -- 912 spreadsheets from SpreadsheetBench, approximately 10K permissively-licensed presentations from Zenodo10K, and multi-application OSWorld configs -- and (ii) verifies each task's feasibility through binary precondition checking before rollout. A single VLM (Kimi-K2.5) serves as goal generator, precondition judge, and trajectory executor, eliminating planner-actor capability gaps. Each trajectory is expanded into step-prefix samples that exactly reproduce the context layout seen at inference time. Fine-tuning UI-TARS 7B on ProCUA-SFT for one epoch yields 45.0% on OSWorld -- an 18.7 percentage-point improvement over the base model and over 35% above AgentNet-trained counterparts. A subset of ProCUA was incorporated into the training data for the Nemotron 3 Nano Omni model, contributing to its computer-use capabilities.