Sobre la Ingeniería de Datos para Escalar las Capacidades de Terminales de LLM

Resumen

A pesar del rápido progreso reciente en las capacidades terminales de los grandes modelos de lenguaje, las estrategias de datos de entrenamiento detrás de los agentes terminales de vanguardia permanecen en gran medida sin divulgar. Abordamos esta brecha mediante un estudio sistemático de las prácticas de ingeniería de datos para agentes terminales, realizando dos contribuciones clave: (1) Terminal-Task-Gen, un pipeline ligero de generación sintética de tareas que soporta la construcción de tareas basadas en semillas y en habilidades, y (2) un análisis exhaustivo de estrategias de datos y entrenamiento, incluyendo filtrado, aprendizaje curricular, entrenamiento de contexto largo y comportamiento de escalado. Nuestro pipeline produce Terminal-Corpus, un conjunto de datos de código abierto a gran escala para tareas terminales. Utilizando este conjunto de datos, entrenamos Nemotron-Terminal, una familia de modelos inicializados a partir de Qwen3 (8B, 14B, 32B) que logran mejoras sustanciales en Terminal-Bench 2.0: Nemotron-Terminal-8B mejora del 2.5% al 13.0%, Nemotron-Terminal-14B mejora del 4.0% al 20.2%, y Nemotron-Terminal-32B mejora del 3.4% al 27.4%, igualando el rendimiento de modelos significativamente más grandes. Para acelerar la investigación en este dominio, hemos liberado como código abierto nuestros puntos de control del modelo y la mayor parte de nuestros conjuntos de datos sintéticos en https://huggingface.co/collections/nvidia/nemotron-terminal.

English

Despite rapid recent progress in the terminal capabilities of large language models, the training data strategies behind state-of-the-art terminal agents remain largely undisclosed. We address this gap through a systematic study of data engineering practices for terminal agents, making two key contributions: (1) Terminal-Task-Gen, a lightweight synthetic task generation pipeline that supports seed-based and skill-based task construction, and (2) a comprehensive analysis of data and training strategies, including filtering, curriculum learning, long context training, and scaling behavior. Our pipeline yields Terminal-Corpus, a large-scale open-source dataset for terminal tasks. Using this dataset, we train Nemotron-Terminal, a family of models initialized from Qwen3(8B, 14B, 32B) that achieve substantial gains on Terminal-Bench 2.0: Nemotron-Terminal-8B improves from 2.5% to 13.0% Nemotron-Terminal-14B improves from 4.0% to 20.2%, and Nemotron-Terminal-32B improves from 3.4% to 27.4%, matching the performance of significantly larger models. To accelerate research in this domain, we open-source our model checkpoints and most of our synthetic datasets at https://huggingface.co/collections/nvidia/nemotron-terminal.

Sobre la Ingeniería de Datos para Escalar las Capacidades de Terminales de LLM

On Data Engineering for Scaling LLM Terminal Capabilities

Resumen

Support