大規模言語モデルのターミナル能力拡張におけるデータエンジニアリングについて
On Data Engineering for Scaling LLM Terminal Capabilities
February 24, 2026
著者: Renjie Pi, Grace Lam, Mohammad Shoeybi, Pooya Jannaty, Bryan Catanzaro, Wei Ping
cs.AI
要旨
大規模言語モデルの端末操作能力は近年急速に進歩しているものの、最先端の端末エージェントを支える学習データ戦略の詳細はほとんど公開されていない。本研究はこの課題に取り組み、端末エージェント向けデータエンジニアリング手法の体系的な検証を通じて二つの主要な貢献を行う:(1)シードベースとスキルベースのタスク構築を支援する軽量合成タスク生成パイプライン「Terminal-Task-Gen」、(2)フィルタリング・カリキュラム学習・長文脈学習・スケーリング挙動を含むデータ/学習戦略の総合的分析。本パイプラインにより構築された大規模オープンソースデータセット「Terminal-Corpus」を用いて、Qwen3(8B, 14B, 32B)を初期化したモデル群「Nemotron-Terminal」を学習した結果、Terminal-Bench 2.0において大幅な性能向上を達成:Nemotron-Terminal-8Bは2.5%→13.0%、Nemotron-Terminal-14Bは4.0%→20.2%、Nemotron-Terminal-32Bは3.4%→27.4%に改善し、遥かに大規模なモデルに匹敵する性能を示した。本分野の研究促進のため、モデルチェックポイント及び合成データセットの大半をhttps://huggingface.co/collections/nvidia/nemotron-terminal で公開する。
English
Despite rapid recent progress in the terminal capabilities of large language models, the training data strategies behind state-of-the-art terminal agents remain largely undisclosed. We address this gap through a systematic study of data engineering practices for terminal agents, making two key contributions: (1) Terminal-Task-Gen, a lightweight synthetic task generation pipeline that supports seed-based and skill-based task construction, and (2) a comprehensive analysis of data and training strategies, including filtering, curriculum learning, long context training, and scaling behavior. Our pipeline yields Terminal-Corpus, a large-scale open-source dataset for terminal tasks. Using this dataset, we train Nemotron-Terminal, a family of models initialized from Qwen3(8B, 14B, 32B) that achieve substantial gains on Terminal-Bench 2.0: Nemotron-Terminal-8B improves from 2.5% to 13.0% Nemotron-Terminal-14B improves from 4.0% to 20.2%, and Nemotron-Terminal-32B improves from 3.4% to 27.4%, matching the performance of significantly larger models. To accelerate research in this domain, we open-source our model checkpoints and most of our synthetic datasets at https://huggingface.co/collections/nvidia/nemotron-terminal.