도커화된 환경에서 대규모 터미널 에이전트 궤적 생성
Large-Scale Terminal Agentic Trajectory Generation from Dockerized Environments
February 1, 2026
저자: Siwei Wu, Yizhi Li, Yuyang Song, Wei Zhang, Yang Wang, Riza Batista-Navarro, Xian Yang, Mingjie Tang, Bryan Dai, Jian Yang, Chenghua Lin
cs.AI
초록
터미널 기반 작업을 위한 에이전트 모델 학습은 다양한 도메인에 걸친 현실적인 장기 상호작용을 포착하는 고품질 터미널 궤적 데이터에 크게 의존합니다. 그러나 이러한 데이터를 대규모로 구축하는 것은 두 가지 핵심 요구사항으로 인해 여전히 어려운 과제로 남아 있습니다: 각 인스턴스에 적합하고 종종 독특한 Docker 환경이 필요하기 때문에 요구되는 \emph{실행 가능성}과, 이질적인 작업 출력으로 인해 통합적이고 표준화된 검증이 어렵기 때문에 필요한 \emph{검증 가능성}입니다. 이러한 문제를 해결하기 위해 우리는 (i) 고품질 저장소를 필터링하여 Docker화된 실행 환경을 구축하고, (ii) Docker에 맞춘 작업 인스턴스를 생성하며, (iii) 실행 가능한 검증 코드와 함께 에이전트 궤적을 합성하는 확장 가능한 파이프라인인 TerminalTraj를 제안합니다. TerminalTraj를 사용하여 우리는 32,000개의 Docker 이미지를 정제하고 8개 도메인에 걸쳐 50,733개의 검증된 터미널 궤적을 생성했습니다. 이 데이터로 Qwen2.5-Coder 백본 모델을 학습한 결과, TerminalBench(TB)에서 일관된 성능 향상을 달성했으며, 각각의 백본 대비 TB~1.0에서 최대 20%, TB~2.0에서 10%의 성능 향상을 보였습니다. 특히 TerminalTraj-32B는 100B 미만의 매개변수를 가진 모델 중에서 강력한 성능을 보여, TB~1.0에서 35.30%, TB~2.0에서 22.00%에 도달했으며 개선된 테스트 시간 스케일링 거동을 입증했습니다. 모든 코드와 데이터는 https://github.com/Wusiwei0410/TerminalTraj에서 이용할 수 있습니다.
English
Training agentic models for terminal-based tasks critically depends on high-quality terminal trajectories that capture realistic long-horizon interactions across diverse domains. However, constructing such data at scale remains challenging due to two key requirements: \emph{Executability}, since each instance requires a suitable and often distinct Docker environment; and \emph{Verifiability}, because heterogeneous task outputs preclude unified, standardized verification. To address these challenges, we propose TerminalTraj, a scalable pipeline that (i) filters high-quality repositories to construct Dockerized execution environments, (ii) generates Docker-aligned task instances, and (iii) synthesizes agent trajectories with executable validation code. Using TerminalTraj, we curate 32K Docker images and generate 50,733 verified terminal trajectories across eight domains. Models trained on this data with the Qwen2.5-Coder backbone achieve consistent performance improvements on TerminalBench (TB), with gains of up to 20\% on TB~1.0 and 10\% on TB~2.0 over their respective backbones. Notably, TerminalTraj-32B achieves strong performance among models with fewer than 100B parameters, reaching 35.30\% on TB~1.0 and 22.00\% on TB~2.0, and demonstrates improved test-time scaling behavior. All code and data are available at https://github.com/Wusiwei0410/TerminalTraj.