Relatório Técnico do ProCUA-SFT
ProCUA-SFT Technical Report
June 15, 2026
Autores: Jaehun Jung, Ximing Lu, Brandon Cui, Muhammad Khalifa, Shaokun Zhang, Hao Zhang, Jin Xu, Amala Sanjay Deshmukh, Karan Sapra, Andrew Tao, Yejin Choi, Jan Kautz, Mingjie Liu, Yi Dong
cs.AI
Resumo
Treinar agentes de uso de computador (CUAs) — modelos que interagem com ambientes de desktop gráficos por meio de capturas de tela e ações de teclado/mouse — requer dados de trajetória em larga escala e diversos, coletados em ambientes completos de desktop. O maior recurso público, AgentNet (22,5 mil trajetórias humanas), leva a transferência negativa quando usado para ajuste fino supervisionado (SFT): continuar o treinamento do UI-TARS 7B no AgentNet faz com que a taxa de sucesso do OSWorld caia de 26,3% para 8-10%. Apresentamos o ProCUA-SFT, um conjunto de dados de 3,1 milhões de amostras de SFT em nível de passo destiladas a partir de 93 mil trajetórias sintéticas em 2.484 combinações de aplicativos. O conjunto de dados é produzido por um pipeline totalmente automatizado que (i) sintetiza tarefas fundamentadas em desktops ativos semeados com conteúdo do mundo real — 912 planilhas do SpreadsheetBench, aproximadamente 10 mil apresentações com licença permissiva do Zenodo10K e configurações de múltiplos aplicativos do OSWorld — e (ii) verifica a viabilidade de cada tarefa por meio de verificação binária de pré-condições antes da execução. Um único VLM (Kimi-K2.5) atua como gerador de objetivos, juiz de pré-condições e executor de trajetória, eliminando lacunas de capacidade entre planejador e atuador. Cada trajetória é expandida em amostras de prefixo de passo que reproduzem exatamente o layout de contexto visto no momento da inferência. O ajuste fino do UI-TARS 7B no ProCUA-SFT por uma época resulta em 45,0% no OSWorld — uma melhoria de 18,7 pontos percentuais em relação ao modelo base e mais de 35% acima das contrapartes treinadas com AgentNet. Um subconjunto do ProCUA foi incorporado aos dados de treinamento do modelo Nemotron 3 Nano Omni, contribuindo para suas capacidades de uso de computador.
English
Training computer-use agents (CUAs) -- models that interact with graphical desktops through screenshots and keyboard/mouse actions -- requires large-scale, diverse trajectory data collected in full desktop environments. The largest public resource, AgentNet (22.5K human trajectories), leads to negative transfer when used for supervised fine-tuning (SFT): continuing training UI-TARS 7B on AgentNet causes OSWorld success rate to fall from 26.3% to 8-10%. We present ProCUA-SFT, a dataset of 3.1M step-level SFT samples distilled from 93K synthetic trajectories across 2,484 application combinations. The dataset is produced by a fully automated pipeline that (i) synthesizes grounded tasks on live desktops seeded with real-world content -- 912 spreadsheets from SpreadsheetBench, approximately 10K permissively-licensed presentations from Zenodo10K, and multi-application OSWorld configs -- and (ii) verifies each task's feasibility through binary precondition checking before rollout. A single VLM (Kimi-K2.5) serves as goal generator, precondition judge, and trajectory executor, eliminating planner-actor capability gaps. Each trajectory is expanded into step-prefix samples that exactly reproduce the context layout seen at inference time. Fine-tuning UI-TARS 7B on ProCUA-SFT for one epoch yields 45.0% on OSWorld -- an 18.7 percentage-point improvement over the base model and over 35% above AgentNet-trained counterparts. A subset of ProCUA was incorporated into the training data for the Nemotron 3 Nano Omni model, contributing to its computer-use capabilities.