ProCUA-SFT Technisch Rapport

Samenvatting

Het trainen van computergebruikagenten (CUAs) – modellen die via schermafbeeldingen en toetsenbord/muisacties met grafische desktops interacteren – vereist grootschalige, diverse trajectgegevens die in volledige desktopomgevingen zijn verzameld. De grootste openbare bron, AgentNet (22,5K menselijke trajecten), leidt tot negatieve transfer bij gebruik voor gesuperviseerd finetunen (SFT): het verder trainen van UI-TARS 7B op AgentNet doet het OSWorld-succespercentage dalen van 26,3% naar 8–10%. We presenteren ProCUA-SFT, een dataset van 3,1M SFT-voorbeelden op stapniveau, gedistilleerd uit 93K synthetische trajecten over 2.484 applicatiecombinaties. De dataset wordt geproduceerd door een volledig geautomatiseerde pijplijn die (i) verankerde taken synthetiseert op live desktops die zijn voorzien van inhoud uit de echte wereld – 912 spreadsheets uit SpreadsheetBench, circa 10K vrijelijk gelicentieerde presentaties van Zenodo10K en multi-applicatie OSWorld-configuraties – en (ii) de haalbaarheid van elke taak verifieert via binaire precondition-checking voordat de uitrol plaatsvindt. Eén enkele VLM (Kimi-K2.5) fungeert als doelsgenerator, precondition-beoordelaar en trajectuitvoerder, waardoor hiaten in plannings- en actiecapaciteiten worden geëlimineerd. Elk traject wordt uitgebreid naar stap-prefixvoorbeelden die exact de contextlay-out reproduceren zoals gezien tijdens inferentie. Het finetunen van UI-TARS 7B op ProCUA-SFT gedurende één epoch levert 45,0% op OSWorld – een verbetering van 18,7 procentpunt ten opzichte van het basismodel en meer dan 35% boven AgentNet-getrainde tegenhangers. Een subset van ProCUA is opgenomen in de trainingsgegevens voor het Nemotron 3 Nano Omni-model en heeft bijgedragen aan de computergebruiksmogelijkheden daarvan.

English

Training computer-use agents (CUAs) -- models that interact with graphical desktops through screenshots and keyboard/mouse actions -- requires large-scale, diverse trajectory data collected in full desktop environments. The largest public resource, AgentNet (22.5K human trajectories), leads to negative transfer when used for supervised fine-tuning (SFT): continuing training UI-TARS 7B on AgentNet causes OSWorld success rate to fall from 26.3% to 8-10%. We present ProCUA-SFT, a dataset of 3.1M step-level SFT samples distilled from 93K synthetic trajectories across 2,484 application combinations. The dataset is produced by a fully automated pipeline that (i) synthesizes grounded tasks on live desktops seeded with real-world content -- 912 spreadsheets from SpreadsheetBench, approximately 10K permissively-licensed presentations from Zenodo10K, and multi-application OSWorld configs -- and (ii) verifies each task's feasibility through binary precondition checking before rollout. A single VLM (Kimi-K2.5) serves as goal generator, precondition judge, and trajectory executor, eliminating planner-actor capability gaps. Each trajectory is expanded into step-prefix samples that exactly reproduce the context layout seen at inference time. Fine-tuning UI-TARS 7B on ProCUA-SFT for one epoch yields 45.0% on OSWorld -- an 18.7 percentage-point improvement over the base model and over 35% above AgentNet-trained counterparts. A subset of ProCUA was incorporated into the training data for the Nemotron 3 Nano Omni model, contributing to its computer-use capabilities.