ProCUA-SFT Technischer Bericht
ProCUA-SFT Technical Report
June 15, 2026
Autoren: Jaehun Jung, Ximing Lu, Brandon Cui, Muhammad Khalifa, Shaokun Zhang, Hao Zhang, Jin Xu, Amala Sanjay Deshmukh, Karan Sapra, Andrew Tao, Yejin Choi, Jan Kautz, Mingjie Liu, Yi Dong
cs.AI
Zusammenfassung
Das Training von Computer-Use-Agenten (CUAs) – Modelle, die über Screenshots und Tastatur-/Mausaktionen mit grafischen Desktops interagieren – erfordert umfangreiche, vielfältige Trajektoriendaten, die in vollständigen Desktop-Umgebungen gesammelt werden. Die größte öffentliche Ressource, AgentNet (22.500 menschliche Trajektorien), führt bei Verwendung für überwachtes Feintuning (SFT) zu negativem Transfer: Wenn das Training von UI-TARS 7B auf AgentNet fortgesetzt wird, sinkt die Erfolgsrate bei OSWorld von 26,3 % auf 8–10 %. Wir stellen ProCUA-SFT vor, einen Datensatz mit 3,1 Millionen schrittweisen SFT-Stichproben, gewonnen aus 93.000 synthetischen Trajektorien aus 2.484 Anwendungskombinationen. Der Datensatz wird durch eine vollständig automatisierte Pipeline erstellt, die (i) fundierte Aufgaben auf Live-Desktops mit realen Inhalten anreichert – 912 Tabellenkalkulationen aus SpreadsheetBench, etwa 10.000 frei lizenzierte Präsentationen aus Zenodo10K sowie Multi-Anwendungs-OSWorld-Konfigurationen – und (ii) die Durchführbarkeit jeder Aufgabe vor dem Ausrollen durch eine binäre Vorbedingungsprüfung verifiziert. Ein einzelnes VLM (Kimi-K2.5) fungiert als Zielgenerator, Vorbedingungsprüfer und Trajektorienausführer, wodurch Lücken zwischen Planer- und Aktor-Fähigkeiten beseitigt werden. Jede Trajektorie wird in Schritt-Präfix-Stichproben expandiert, die exakt das bei der Inferenz gesehene Kontextlayout reproduzieren. Feintuning von UI-TARS 7B auf ProCUA-SFT für eine Epoche ergibt 45,0 % bei OSWorld – eine Verbesserung um 18,7 Prozentpunkte gegenüber dem Basismodell und über 35 % über den mit AgentNet trainierten Gegenstücken. Ein Teil von ProCUA wurde in die Trainingsdaten für das Nemotron 3 Nano Omni-Modell aufgenommen und trug zu dessen Computer-Use-Fähigkeiten bei.
English
Training computer-use agents (CUAs) -- models that interact with graphical desktops through screenshots and keyboard/mouse actions -- requires large-scale, diverse trajectory data collected in full desktop environments. The largest public resource, AgentNet (22.5K human trajectories), leads to negative transfer when used for supervised fine-tuning (SFT): continuing training UI-TARS 7B on AgentNet causes OSWorld success rate to fall from 26.3% to 8-10%. We present ProCUA-SFT, a dataset of 3.1M step-level SFT samples distilled from 93K synthetic trajectories across 2,484 application combinations. The dataset is produced by a fully automated pipeline that (i) synthesizes grounded tasks on live desktops seeded with real-world content -- 912 spreadsheets from SpreadsheetBench, approximately 10K permissively-licensed presentations from Zenodo10K, and multi-application OSWorld configs -- and (ii) verifies each task's feasibility through binary precondition checking before rollout. A single VLM (Kimi-K2.5) serves as goal generator, precondition judge, and trajectory executor, eliminating planner-actor capability gaps. Each trajectory is expanded into step-prefix samples that exactly reproduce the context layout seen at inference time. Fine-tuning UI-TARS 7B on ProCUA-SFT for one epoch yields 45.0% on OSWorld -- an 18.7 percentage-point improvement over the base model and over 35% above AgentNet-trained counterparts. A subset of ProCUA was incorporated into the training data for the Nemotron 3 Nano Omni model, contributing to its computer-use capabilities.