Over Data Engineering voor het Schalen van LLM Terminal Capaciteiten

Samenvatting

Ondanks de recente snelle vooruitgang in de terminale capaciteiten van grote taalmodel(len), blijven de trainingsdatastrategieën achter state-of-the-art terminale agents grotendeels onbekend. Wij vullen deze leemte in met een systematische studie naar data-engineeringpraktijken voor terminale agents, waarbij wij twee belangrijke bijdragen leveren: (1) Terminal-Task-Gen, een lichtgewicht pijplijn voor de generatie van synthetische taken die seed-gestuurde en vaardigheidsgebaseerde taakconstructie ondersteunt, en (2) een uitgebreide analyse van data- en trainingsstrategieën, waaronder filtering, curriculum learning, training voor lange contexten en schaalgedrag. Onze pijplijn levert Terminal-Corpus op, een grootschalige open-source dataset voor terminaltaken. Met behulp van deze dataset trainen wij Nemotron-Terminal, een familie van modellen geïnitialiseerd vanuit Qwen3(8B, 14B, 32B), die aanzienlijke verbeteringen laten zien op Terminal-Bench 2.0: Nemotron-Terminal-8B verbetert van 2,5% naar 13,0%, Nemotron-Terminal-14B verbetert van 4,0% naar 20,2%, en Nemotron-Terminal-32B verbetert van 3,4% naar 27,4%, waarmee het de prestaties evenaart van aanzienlijk grotere modellen. Om onderzoek in dit domein te versnellen, open-sourcen wij onze modelcheckpoints en het grootste deel van onze synthetische datasets op https://huggingface.co/collections/nvidia/nemotron-terminal.

English

Despite rapid recent progress in the terminal capabilities of large language models, the training data strategies behind state-of-the-art terminal agents remain largely undisclosed. We address this gap through a systematic study of data engineering practices for terminal agents, making two key contributions: (1) Terminal-Task-Gen, a lightweight synthetic task generation pipeline that supports seed-based and skill-based task construction, and (2) a comprehensive analysis of data and training strategies, including filtering, curriculum learning, long context training, and scaling behavior. Our pipeline yields Terminal-Corpus, a large-scale open-source dataset for terminal tasks. Using this dataset, we train Nemotron-Terminal, a family of models initialized from Qwen3(8B, 14B, 32B) that achieve substantial gains on Terminal-Bench 2.0: Nemotron-Terminal-8B improves from 2.5% to 13.0% Nemotron-Terminal-14B improves from 4.0% to 20.2%, and Nemotron-Terminal-32B improves from 3.4% to 27.4%, matching the performance of significantly larger models. To accelerate research in this domain, we open-source our model checkpoints and most of our synthetic datasets at https://huggingface.co/collections/nvidia/nemotron-terminal.

Over Data Engineering voor het Schalen van LLM Terminal Capaciteiten

On Data Engineering for Scaling LLM Terminal Capabilities

Samenvatting

Support