Sur l'ingénierie des données pour l'extension des capacités des terminaux de LLM

Résumé

Malgré les progrès rapides récents dans les capacités des grands modèles de langage pour les terminaux, les stratégies de données d'entraînement derrière les agents de pointe restent largement non divulguées. Nous comblons cette lacune par une étude systématique des pratiques d'ingénierie des données pour les agents de terminal, en apportant deux contributions principales : (1) Terminal-Task-Gen, un pipeline léger de génération synthétique de tâches qui prend en charge la construction de tâches basée sur des amorces et sur des compétences, et (2) une analyse complète des stratégies de données et d'entraînement, incluant le filtrage, l'apprentissage curriculaire, l'entraînement en contexte long et le comportement à l'échelle. Notre pipeline produit Terminal-Corpus, un jeu de données open-source à grande échelle pour les tâches de terminal. En utilisant ce jeu de données, nous entraînons Nemotron-Terminal, une famille de modèles initialisés à partir de Qwen3(8B, 14B, 32B) qui obtiennent des gains substantiels sur Terminal-Bench 2.0 : Nemotron-Terminal-8B passe de 2,5 % à 13,0 %, Nemotron-Terminal-14B passe de 4,0 % à 20,2 %, et Nemotron-Terminal-32B passe de 3,4 % à 27,4 %, égalant ainsi les performances de modèles nettement plus grands. Pour accélérer la recherche dans ce domaine, nous ouvrons en accès libre nos points de contrôle de modèles et la majeure partie de nos jeux de données synthétiques à l'adresse https://huggingface.co/collections/nvidia/nemotron-terminal.

English

Despite rapid recent progress in the terminal capabilities of large language models, the training data strategies behind state-of-the-art terminal agents remain largely undisclosed. We address this gap through a systematic study of data engineering practices for terminal agents, making two key contributions: (1) Terminal-Task-Gen, a lightweight synthetic task generation pipeline that supports seed-based and skill-based task construction, and (2) a comprehensive analysis of data and training strategies, including filtering, curriculum learning, long context training, and scaling behavior. Our pipeline yields Terminal-Corpus, a large-scale open-source dataset for terminal tasks. Using this dataset, we train Nemotron-Terminal, a family of models initialized from Qwen3(8B, 14B, 32B) that achieve substantial gains on Terminal-Bench 2.0: Nemotron-Terminal-8B improves from 2.5% to 13.0% Nemotron-Terminal-14B improves from 4.0% to 20.2%, and Nemotron-Terminal-32B improves from 3.4% to 27.4%, matching the performance of significantly larger models. To accelerate research in this domain, we open-source our model checkpoints and most of our synthetic datasets at https://huggingface.co/collections/nvidia/nemotron-terminal.

Sur l'ingénierie des données pour l'extension des capacités des terminaux de LLM

On Data Engineering for Scaling LLM Terminal Capabilities

Résumé

Support