Sull'Ingegneria dei Dati per il Ridimensionamento delle Capacità dei Terminali LLM

Abstract

Nonostante i recenti rapidi progressi nelle capacità dei grandi modelli linguistici nell'uso del terminale, le strategie relative ai dati di addestramento dietro gli agenti per terminale all'avanguardia rimangono in gran parte non divulgate. Colmiamo questa lacuna attraverso uno studio sistematico delle pratiche di data engineering per agenti da terminale, fornendo due contributi chiave: (1) Terminal-Task-Gen, una pipeline leggera per la generazione sintetica di task che supporta la costruzione di attività basate su seed e su competenze, e (2) un'analisi completa delle strategie di dati e addestramento, inclusi filtraggio, apprendimento per curriculum, addestramento con contesto lungo e comportamento di scaling. La nostra pipeline produce Terminal-Corpus, un dataset open-source su larga scala per task da terminale. Utilizzando questo dataset, abbiamo addestrato Nemotron-Terminal, una famiglia di modelli inizializzati da Qwen3(8B, 14B, 32B) che ottengono miglioramenti sostanziali su Terminal-Bench 2.0: Nemotron-Terminal-8B migliora dal 2.5% al 13.0%, Nemotron-Terminal-14B dal 4.0% al 20.2%, e Nemotron-Terminal-32B dal 3.4% al 27.4%, eguagliando le prestazioni di modelli significativamente più grandi. Per accelerare la ricerca in questo ambito, rendiamo open-source i nostri checkpoint del modello e la maggior parte dei nostri dataset sintetici all'indirizzo https://huggingface.co/collections/nvidia/nemotron-terminal.

English

Despite rapid recent progress in the terminal capabilities of large language models, the training data strategies behind state-of-the-art terminal agents remain largely undisclosed. We address this gap through a systematic study of data engineering practices for terminal agents, making two key contributions: (1) Terminal-Task-Gen, a lightweight synthetic task generation pipeline that supports seed-based and skill-based task construction, and (2) a comprehensive analysis of data and training strategies, including filtering, curriculum learning, long context training, and scaling behavior. Our pipeline yields Terminal-Corpus, a large-scale open-source dataset for terminal tasks. Using this dataset, we train Nemotron-Terminal, a family of models initialized from Qwen3(8B, 14B, 32B) that achieve substantial gains on Terminal-Bench 2.0: Nemotron-Terminal-8B improves from 2.5% to 13.0% Nemotron-Terminal-14B improves from 4.0% to 20.2%, and Nemotron-Terminal-32B improves from 3.4% to 27.4%, matching the performance of significantly larger models. To accelerate research in this domain, we open-source our model checkpoints and most of our synthetic datasets at https://huggingface.co/collections/nvidia/nemotron-terminal.

Sull'Ingegneria dei Dati per il Ridimensionamento delle Capacità dei Terminali LLM

On Data Engineering for Scaling LLM Terminal Capabilities

Abstract

Support