Zu Data Engineering für die Skalierung von LLM-Terminalfähigkeiten

Zusammenfassung

Trotz der rasanten jüngsten Fortschritte bei den Terminalfähigkeiten großer Sprachmodelle sind die Trainingsdatenstrategien hinter modernsten Terminal-Agenten weitgehend undurchsichtig. Wir schließen diese Lücke durch eine systematische Untersuchung von Data-Engineering-Praktiken für Terminal-Agenten und leisten zwei zentrale Beiträge: (1) Terminal-Task-Gen, eine schlanke Pipeline zur synthetischen Aufgabengenerierung, die seed-basierte und kompetenzbasierte Aufgabenkonstruktion unterstützt, und (2) eine umfassende Analyse von Daten- und Trainingsstrategien, einschließlich Filterung, Curriculum Learning, Langkontext-Training und Skalierungsverhalten. Unsere Pipeline erzeugt Terminal-Corpus, einen groß angelegten Open-Source-Datensatz für Terminal-Aufgaben. Mit diesem Datensatz trainieren wir Nemotron-Terminal, eine Modellfamilie, die auf Qwen3(8B, 14B, 32B) initialisiert wurde und erhebliche Verbesserungen auf Terminal-Bench 2.0 erzielt: Nemotron-Terminal-8B steigt von 2,5 % auf 13,0 %, Nemotron-Terminal-14B von 4,0 % auf 20,2 % und Nemotron-Terminal-32B von 3,4 % auf 27,4 % und erreicht damit die Leistung deutlich größerer Modelle. Um die Forschung in diesem Bereich zu beschleunigen, veröffentlichen wir unsere Modell-Checkpoints und den Großteil unserer synthetischen Datensätze unter https://huggingface.co/collections/nvidia/nemotron-terminal als Open Source.

English

Despite rapid recent progress in the terminal capabilities of large language models, the training data strategies behind state-of-the-art terminal agents remain largely undisclosed. We address this gap through a systematic study of data engineering practices for terminal agents, making two key contributions: (1) Terminal-Task-Gen, a lightweight synthetic task generation pipeline that supports seed-based and skill-based task construction, and (2) a comprehensive analysis of data and training strategies, including filtering, curriculum learning, long context training, and scaling behavior. Our pipeline yields Terminal-Corpus, a large-scale open-source dataset for terminal tasks. Using this dataset, we train Nemotron-Terminal, a family of models initialized from Qwen3(8B, 14B, 32B) that achieve substantial gains on Terminal-Bench 2.0: Nemotron-Terminal-8B improves from 2.5% to 13.0% Nemotron-Terminal-14B improves from 4.0% to 20.2%, and Nemotron-Terminal-32B improves from 3.4% to 27.4%, matching the performance of significantly larger models. To accelerate research in this domain, we open-source our model checkpoints and most of our synthetic datasets at https://huggingface.co/collections/nvidia/nemotron-terminal.

Zu Data Engineering für die Skalierung von LLM-Terminalfähigkeiten

On Data Engineering for Scaling LLM Terminal Capabilities

Zusammenfassung

Support