TermiGen: 터미널 에이전트를 위한 고품질 환경 및 강건한 경로 합성
TermiGen: High-Fidelity Environment and Robust Trajectory Synthesis for Terminal Agents
February 6, 2026
저자: Kaijie Zhu, Yuzhou Nie, Yijiang Li, Yiming Huang, Jialian Wu, Jiang Liu, Ximeng Sun, Zhenfei Yin, Lun Wang, Zicheng Liu, Emad Barsoum, William Yang Wang, Wenbo Guo
cs.AI
초록
복잡한 터미널 작업 실행은 오픈 웨이트 LLM에게 여전히 큰 과제로 남아 있으며, 두 가지 근본적인 한계에 의해 제약을 받습니다. 첫째, 높은 정확도의 실행 가능한 훈련 환경이 부족합니다: 실제 저장소에서 합성된 환경은 다양성과 확장성이 부족한 반면, LLM이 생성한 실행 궤적은 환각 문제를 겪습니다. 둘째, 표준 지시 튜닝은 더 작은 모델에서 흔히 발생하는 단순한 실수를 거의 보여주지 않는 전문가 궤적을 사용합니다. 이는 분포 불일치를 초래하여 학생 모델이 자체 런타임 오류로부터 복구하는 데 필요한 역량을 갖추지 못하게 합니다. 이러한 격차를 해소하기 위해 우리는 검증 가능한 환경과 회복력 있는 전문가 궤적을 합성하는 종단 간 파이프라인인 TermiGen을 소개합니다. TermiGen은 먼저 반복적인 다중 에이전트 정제 루프를 통해 기능적으로 유효한 작업과 Docker 컨테이너를 생성합니다. 이후 우리는 궤적 수집 과정에서 적극적으로 오류를 주입하여 오류 수정 주기가 풍부한 데이터를 합성하는 Generator-Critic 프로토콜을 활용합니다. 이렇게 TermiGen으로 생성된 데이터셋으로 미세 조정된 우리의 TermiGen-Qwen2.5-Coder-32B는 TerminalBench에서 31.3%의 통과율을 달성했습니다. 이는 새로운 오픈 웨이트 최첨단 기술을 수립하며, 기존 기준선을 능가하고 o4-mini와 같은 강력한 독점 모델을 뛰어넘는 성과입니다. 데이터셋은 https://github.com/ucsb-mlsec/terminal-bench-env에서 이용 가능합니다.
English
Executing complex terminal tasks remains a significant challenge for open-weight LLMs, constrained by two fundamental limitations. First, high-fidelity, executable training environments are scarce: environments synthesized from real-world repositories are not diverse and scalable, while trajectories synthesized by LLMs suffer from hallucinations. Second, standard instruction tuning uses expert trajectories that rarely exhibit simple mistakes common to smaller models. This creates a distributional mismatch, leaving student models ill-equipped to recover from their own runtime failures. To bridge these gaps, we introduce TermiGen, an end-to-end pipeline for synthesizing verifiable environments and resilient expert trajectories. Termi-Gen first generates functionally valid tasks and Docker containers via an iterative multi-agent refinement loop. Subsequently, we employ a Generator-Critic protocol that actively injects errors during trajectory collection, synthesizing data rich in error-correction cycles. Fine-tuned on this TermiGen-generated dataset, our TermiGen-Qwen2.5-Coder-32B achieves a 31.3% pass rate on TerminalBench. This establishes a new open-weights state-of-the-art, outperforming existing baselines and notably surpassing capable proprietary models such as o4-mini. Dataset is avaiable at https://github.com/ucsb-mlsec/terminal-bench-env.