TermiGen: ターミナルエージェントのための高精細環境とロバスト軌道合成
TermiGen: High-Fidelity Environment and Robust Trajectory Synthesis for Terminal Agents
February 6, 2026
著者: Kaijie Zhu, Yuzhou Nie, Yijiang Li, Yiming Huang, Jialian Wu, Jiang Liu, Ximeng Sun, Zhenfei Yin, Lun Wang, Zicheng Liu, Emad Barsoum, William Yang Wang, Wenbo Guo
cs.AI
要旨
複雑なターミナルタスクの実行は、オープンウェイトLLMにとって依然として大きな課題であり、2つの根本的な制約に直面しています。第一に、高精度で実行可能な訓練環境が不足しています。実世界のリポジトリから合成された環境は多様性と拡張性に欠け、LLMによって合成された軌跡は虚構に陥りがちです。第二に、標準的な指示チューニングでは、小さなモデルに共通する単純なミラーが稀にしか現れない専門家軌跡が使用されます。これにより分布の不一致が生じ、生徒モデル自身の実行時失敗からの回復能力が不十分になります。これらの隔たりを埋めるため、検証可能な環境と回復力のある専門家軌跡を合成するエンドツーエンドパイプラインであるTermiGenを提案します。TermiGenはまず、反復的なマルチエージェント改良ループを通じて機能的に有効なタスクとDockerコンテナを生成します。続いて、軌跡収集中に能動的にエラーを注入するGenerator-Criticプロトコルを採用し、エラー修正サイクルに富んだデータを合成します。このTermiGen生成データセットでファインチューニングされたTermiGen-Qwen2.5-Coder-32Bは、TerminalBenchにおいて31.3%のパス率を達成しました。これはオープンウェイトにおける新たなstate-of-the-artを確立し、既存のベースラインを凌駕し、特にo4-miniのような有力なプロプライエタリモデルを顕著に上回る結果です。データセットはhttps://github.com/ucsb-mlsec/terminal-bench-envで公開されています。
English
Executing complex terminal tasks remains a significant challenge for open-weight LLMs, constrained by two fundamental limitations. First, high-fidelity, executable training environments are scarce: environments synthesized from real-world repositories are not diverse and scalable, while trajectories synthesized by LLMs suffer from hallucinations. Second, standard instruction tuning uses expert trajectories that rarely exhibit simple mistakes common to smaller models. This creates a distributional mismatch, leaving student models ill-equipped to recover from their own runtime failures. To bridge these gaps, we introduce TermiGen, an end-to-end pipeline for synthesizing verifiable environments and resilient expert trajectories. Termi-Gen first generates functionally valid tasks and Docker containers via an iterative multi-agent refinement loop. Subsequently, we employ a Generator-Critic protocol that actively injects errors during trajectory collection, synthesizing data rich in error-correction cycles. Fine-tuned on this TermiGen-generated dataset, our TermiGen-Qwen2.5-Coder-32B achieves a 31.3% pass rate on TerminalBench. This establishes a new open-weights state-of-the-art, outperforming existing baselines and notably surpassing capable proprietary models such as o4-mini. Dataset is avaiable at https://github.com/ucsb-mlsec/terminal-bench-env.