Sobre Engenharia de Dados para Escalonar Capacidades de Terminal de LLM

Resumo

Apesar dos rápidos avanços recentes nas capacidades terminais de modelos de linguagem grandes, as estratégias de dados de treinamento por trás dos agentes terminais de última geração permanecem amplamente não divulgadas. Nós abordamos esta lacuna através de um estudo sistemático das práticas de engenharia de dados para agentes terminais, fazendo duas contribuições principais: (1) Terminal-Task-Gen, um *pipeline* leve de geração sintética de tarefas que suporta a construção de tarefas baseadas em semente (*seed*) e em habilidades (*skills*), e (2) uma análise abrangente de estratégias de dados e treinamento, incluindo filtragem, aprendizado curricular (*curriculum learning*), treinamento de contexto longo e comportamento de escalonamento. Nosso *pipeline* produz o Terminal-Corpus, um conjunto de dados de código aberto em larga escala para tarefas de terminal. Usando este conjunto de dados, treinamos o Nemotron-Terminal, uma família de modelos inicializada a partir do Qwen3 (8B, 14B, 32B) que obtém ganhos substanciais no Terminal-Bench 2.0: o Nemotron-Terminal-8B melhora de 2,5% para 13,0%, o Nemotron-Terminal-14B melhora de 4,0% para 20,2%, e o Nemotron-Terminal-32B melhora de 3,4% para 27,4%, equiparando o desempenho de modelos significativamente maiores. Para acelerar a pesquisa neste domínio, disponibilizamos publicamente nossos *checkpoints* de modelo e a maior parte de nossos conjuntos de dados sintéticos em https://huggingface.co/collections/nvidia/nemotron-terminal.

English

Despite rapid recent progress in the terminal capabilities of large language models, the training data strategies behind state-of-the-art terminal agents remain largely undisclosed. We address this gap through a systematic study of data engineering practices for terminal agents, making two key contributions: (1) Terminal-Task-Gen, a lightweight synthetic task generation pipeline that supports seed-based and skill-based task construction, and (2) a comprehensive analysis of data and training strategies, including filtering, curriculum learning, long context training, and scaling behavior. Our pipeline yields Terminal-Corpus, a large-scale open-source dataset for terminal tasks. Using this dataset, we train Nemotron-Terminal, a family of models initialized from Qwen3(8B, 14B, 32B) that achieve substantial gains on Terminal-Bench 2.0: Nemotron-Terminal-8B improves from 2.5% to 13.0% Nemotron-Terminal-14B improves from 4.0% to 20.2%, and Nemotron-Terminal-32B improves from 3.4% to 27.4%, matching the performance of significantly larger models. To accelerate research in this domain, we open-source our model checkpoints and most of our synthetic datasets at https://huggingface.co/collections/nvidia/nemotron-terminal.

Sobre Engenharia de Dados para Escalonar Capacidades de Terminal de LLM

On Data Engineering for Scaling LLM Terminal Capabilities

Resumo

Support