Informe Técnico de ProCUA-SFT

Resumen

Entrenar agentes de uso de computadora (CUAs, por sus siglas en inglés) —modelos que interactúan con escritorios gráficos mediante capturas de pantalla y acciones de teclado/ratón— requiere datos de trayectorias diversos y a gran escala recopilados en entornos completos de escritorio. El recurso público más grande, AgentNet (22.5 mil trayectorias humanas), provoca transferencia negativa cuando se utiliza para el ajuste fino supervisado (SFT): continuar el entrenamiento de UI-TARS 7B en AgentNet hace que la tasa de éxito en OSWorld caiga del 26.3% al 8-10%. Presentamos ProCUA-SFT, un conjunto de datos de 3.1 millones de muestras de SFT a nivel de paso destiladas a partir de 93 mil trayectorias sintéticas en 2,484 combinaciones de aplicaciones. El conjunto de datos se genera mediante un pipeline completamente automatizado que (i) sintetiza tareas fundamentadas en escritorios en vivo sembrados con contenido del mundo real —912 hojas de cálculo de SpreadsheetBench, aproximadamente 10 mil presentaciones con licencia permisiva de Zenodo10K y configuraciones multi-aplicación de OSWorld— y (ii) verifica la viabilidad de cada tarea mediante comprobación binaria de condiciones previas antes del despliegue. Un único VLM (Kimi-K2.5) actúa como generador de objetivos, juez de condiciones previas y ejecutor de trayectorias, eliminando las brechas de capacidad entre planificador y ejecutor. Cada trayectoria se expande en muestras de prefijo por paso que reproducen exactamente el diseño de contexto observado en el momento de la inferencia. El ajuste fino de UI-TARS 7B en ProCUA-SFT durante una época alcanza un 45.0% en OSWorld —una mejora de 18.7 puntos porcentuales sobre el modelo base y más del 35% por encima de los modelos entrenados con AgentNet. Un subconjunto de ProCUA se incorporó a los datos de entrenamiento del modelo Nemotron 3 Nano Omni, contribuyendo a sus capacidades de uso de computadora.

English

Training computer-use agents (CUAs) -- models that interact with graphical desktops through screenshots and keyboard/mouse actions -- requires large-scale, diverse trajectory data collected in full desktop environments. The largest public resource, AgentNet (22.5K human trajectories), leads to negative transfer when used for supervised fine-tuning (SFT): continuing training UI-TARS 7B on AgentNet causes OSWorld success rate to fall from 26.3% to 8-10%. We present ProCUA-SFT, a dataset of 3.1M step-level SFT samples distilled from 93K synthetic trajectories across 2,484 application combinations. The dataset is produced by a fully automated pipeline that (i) synthesizes grounded tasks on live desktops seeded with real-world content -- 912 spreadsheets from SpreadsheetBench, approximately 10K permissively-licensed presentations from Zenodo10K, and multi-application OSWorld configs -- and (ii) verifies each task's feasibility through binary precondition checking before rollout. A single VLM (Kimi-K2.5) serves as goal generator, precondition judge, and trajectory executor, eliminating planner-actor capability gaps. Each trajectory is expanded into step-prefix samples that exactly reproduce the context layout seen at inference time. Fine-tuning UI-TARS 7B on ProCUA-SFT for one epoch yields 45.0% on OSWorld -- an 18.7 percentage-point improvement over the base model and over 35% above AgentNet-trained counterparts. A subset of ProCUA was incorporated into the training data for the Nemotron 3 Nano Omni model, contributing to its computer-use capabilities.