Relatório Técnico do ProCUA-SFT

Resumo

Treinar agentes de uso de computador (CUAs) — modelos que interagem com ambientes de desktop gráficos por meio de capturas de tela e ações de teclado/mouse — requer dados de trajetória em larga escala e diversos, coletados em ambientes completos de desktop. O maior recurso público, AgentNet (22,5 mil trajetórias humanas), leva a transferência negativa quando usado para ajuste fino supervisionado (SFT): continuar o treinamento do UI-TARS 7B no AgentNet faz com que a taxa de sucesso do OSWorld caia de 26,3% para 8-10%. Apresentamos o ProCUA-SFT, um conjunto de dados de 3,1 milhões de amostras de SFT em nível de passo destiladas a partir de 93 mil trajetórias sintéticas em 2.484 combinações de aplicativos. O conjunto de dados é produzido por um pipeline totalmente automatizado que (i) sintetiza tarefas fundamentadas em desktops ativos semeados com conteúdo do mundo real — 912 planilhas do SpreadsheetBench, aproximadamente 10 mil apresentações com licença permissiva do Zenodo10K e configurações de múltiplos aplicativos do OSWorld — e (ii) verifica a viabilidade de cada tarefa por meio de verificação binária de pré-condições antes da execução. Um único VLM (Kimi-K2.5) atua como gerador de objetivos, juiz de pré-condições e executor de trajetória, eliminando lacunas de capacidade entre planejador e atuador. Cada trajetória é expandida em amostras de prefixo de passo que reproduzem exatamente o layout de contexto visto no momento da inferência. O ajuste fino do UI-TARS 7B no ProCUA-SFT por uma época resulta em 45,0% no OSWorld — uma melhoria de 18,7 pontos percentuais em relação ao modelo base e mais de 35% acima das contrapartes treinadas com AgentNet. Um subconjunto do ProCUA foi incorporado aos dados de treinamento do modelo Nemotron 3 Nano Omni, contribuindo para suas capacidades de uso de computador.

English

Training computer-use agents (CUAs) -- models that interact with graphical desktops through screenshots and keyboard/mouse actions -- requires large-scale, diverse trajectory data collected in full desktop environments. The largest public resource, AgentNet (22.5K human trajectories), leads to negative transfer when used for supervised fine-tuning (SFT): continuing training UI-TARS 7B on AgentNet causes OSWorld success rate to fall from 26.3% to 8-10%. We present ProCUA-SFT, a dataset of 3.1M step-level SFT samples distilled from 93K synthetic trajectories across 2,484 application combinations. The dataset is produced by a fully automated pipeline that (i) synthesizes grounded tasks on live desktops seeded with real-world content -- 912 spreadsheets from SpreadsheetBench, approximately 10K permissively-licensed presentations from Zenodo10K, and multi-application OSWorld configs -- and (ii) verifies each task's feasibility through binary precondition checking before rollout. A single VLM (Kimi-K2.5) serves as goal generator, precondition judge, and trajectory executor, eliminating planner-actor capability gaps. Each trajectory is expanded into step-prefix samples that exactly reproduce the context layout seen at inference time. Fine-tuning UI-TARS 7B on ProCUA-SFT for one epoch yields 45.0% on OSWorld -- an 18.7 percentage-point improvement over the base model and over 35% above AgentNet-trained counterparts. A subset of ProCUA was incorporated into the training data for the Nemotron 3 Nano Omni model, contributing to its computer-use capabilities.