Rapport technique ProCUA-SFT

Résumé

La formation d’agents d’utilisation d’ordinateur (CUA) — des modèles qui interagissent avec des bureaux graphiques via des captures d’écran et des actions clavier/souris — nécessite des données de trajectoire à grande échelle et diversifiées, collectées dans des environnements de bureau complets. La plus grande ressource publique, AgentNet (22,5 K trajectoires humaines), entraîne un transfert négatif lorsqu’elle est utilisée pour l’ajustement fin supervisé (SFT) : la poursuite de l’entraînement d’UI-TARS 7B sur AgentNet fait chuter le taux de réussite sur OSWorld de 26,3 % à 8‑10 %. Nous présentons ProCUA-SFT, un ensemble de données de 3,1 M échantillons SFT au niveau des étapes, distillé à partir de 93 K trajectoires synthétiques couvrant 2 484 combinaisons d’applications. L’ensemble est produit par un pipeline entièrement automatisé qui (i) synthétise des tâches ancrées sur des bureaux en direct amorcés avec du contenu réel — 912 feuilles de calcul de SpreadsheetBench, environ 10 K présentations sous licence permissive de Zenodo10K, et des configurations multi‑applications d’OSWorld — et (ii) vérifie la faisabilité de chaque tâche par un contrôle binaire des préconditions avant le déploiement. Un seul VLM (Kimi‑K2.5) sert de générateur d’objectifs, de juge des préconditions et d’exécuteur de trajectoire, éliminant les écarts de capacité entre planificateur et acteur. Chaque trajectoire est développée en échantillons de préfixe d’étape qui reproduisent exactement la disposition du contexte vue au moment de l’inférence. L’ajustement fin d’UI-TARS 7B sur ProCUA-SFT pendant une époque donne 45,0 % sur OSWorld — une amélioration de 18,7 points de pourcentage par rapport au modèle de base et de plus de 35 % par rapport aux homologues entraînés sur AgentNet. Un sous-ensemble de ProCUA a été intégré aux données d’entraînement du modèle Nemotron 3 Nano Omni, contribuant à ses capacités d’utilisation d’ordinateur.

English

Training computer-use agents (CUAs) -- models that interact with graphical desktops through screenshots and keyboard/mouse actions -- requires large-scale, diverse trajectory data collected in full desktop environments. The largest public resource, AgentNet (22.5K human trajectories), leads to negative transfer when used for supervised fine-tuning (SFT): continuing training UI-TARS 7B on AgentNet causes OSWorld success rate to fall from 26.3% to 8-10%. We present ProCUA-SFT, a dataset of 3.1M step-level SFT samples distilled from 93K synthetic trajectories across 2,484 application combinations. The dataset is produced by a fully automated pipeline that (i) synthesizes grounded tasks on live desktops seeded with real-world content -- 912 spreadsheets from SpreadsheetBench, approximately 10K permissively-licensed presentations from Zenodo10K, and multi-application OSWorld configs -- and (ii) verifies each task's feasibility through binary precondition checking before rollout. A single VLM (Kimi-K2.5) serves as goal generator, precondition judge, and trajectory executor, eliminating planner-actor capability gaps. Each trajectory is expanded into step-prefix samples that exactly reproduce the context layout seen at inference time. Fine-tuning UI-TARS 7B on ProCUA-SFT for one epoch yields 45.0% on OSWorld -- an 18.7 percentage-point improvement over the base model and over 35% above AgentNet-trained counterparts. A subset of ProCUA was incorporated into the training data for the Nemotron 3 Nano Omni model, contributing to its computer-use capabilities.