Over Data Engineering voor het Schalen van LLM Terminal Capaciteiten
On Data Engineering for Scaling LLM Terminal Capabilities
February 24, 2026
Auteurs: Renjie Pi, Grace Lam, Mohammad Shoeybi, Pooya Jannaty, Bryan Catanzaro, Wei Ping
cs.AI
Samenvatting
Ondanks de recente snelle vooruitgang in de terminale capaciteiten van grote taalmodel(len), blijven de trainingsdatastrategieën achter state-of-the-art terminale agents grotendeels onbekend. Wij vullen deze leemte in met een systematische studie naar data-engineeringpraktijken voor terminale agents, waarbij wij twee belangrijke bijdragen leveren: (1) Terminal-Task-Gen, een lichtgewicht pijplijn voor de generatie van synthetische taken die seed-gestuurde en vaardigheidsgebaseerde taakconstructie ondersteunt, en (2) een uitgebreide analyse van data- en trainingsstrategieën, waaronder filtering, curriculum learning, training voor lange contexten en schaalgedrag. Onze pijplijn levert Terminal-Corpus op, een grootschalige open-source dataset voor terminaltaken. Met behulp van deze dataset trainen wij Nemotron-Terminal, een familie van modellen geïnitialiseerd vanuit Qwen3(8B, 14B, 32B), die aanzienlijke verbeteringen laten zien op Terminal-Bench 2.0: Nemotron-Terminal-8B verbetert van 2,5% naar 13,0%, Nemotron-Terminal-14B verbetert van 4,0% naar 20,2%, en Nemotron-Terminal-32B verbetert van 3,4% naar 27,4%, waarmee het de prestaties evenaart van aanzienlijk grotere modellen. Om onderzoek in dit domein te versnellen, open-sourcen wij onze modelcheckpoints en het grootste deel van onze synthetische datasets op https://huggingface.co/collections/nvidia/nemotron-terminal.
English
Despite rapid recent progress in the terminal capabilities of large language models, the training data strategies behind state-of-the-art terminal agents remain largely undisclosed. We address this gap through a systematic study of data engineering practices for terminal agents, making two key contributions: (1) Terminal-Task-Gen, a lightweight synthetic task generation pipeline that supports seed-based and skill-based task construction, and (2) a comprehensive analysis of data and training strategies, including filtering, curriculum learning, long context training, and scaling behavior. Our pipeline yields Terminal-Corpus, a large-scale open-source dataset for terminal tasks. Using this dataset, we train Nemotron-Terminal, a family of models initialized from Qwen3(8B, 14B, 32B) that achieve substantial gains on Terminal-Bench 2.0: Nemotron-Terminal-8B improves from 2.5% to 13.0% Nemotron-Terminal-14B improves from 4.0% to 20.2%, and Nemotron-Terminal-32B improves from 3.4% to 27.4%, matching the performance of significantly larger models. To accelerate research in this domain, we open-source our model checkpoints and most of our synthetic datasets at https://huggingface.co/collections/nvidia/nemotron-terminal.