ChatPaper.aiChatPaper

LiteCoder-Terminal: 언어 에이전트 학습을 위한 장기적 터미널 환경 확장

LiteCoder-Terminal: Scaling Long-Horizon Terminal Environments for Learning Language Agents

May 28, 2026
저자: Xiaoxuan Peng, Kaiqi Zhang, Xinyu Lu, Boxi Cao, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun
cs.AI

초록

터미널 환경을 마스터하기 위해서는 다단계 계획, 피드백 기반 실행, 동적 상태 적응이 가능한 언어 에이전트가 필요하다. 그러나 현재 이러한 에이전트를 학습시키는 과정은 수집된 외부 저장소에 의존하는 데 병목 현상이 있어, 도메인 다양성, 환경 제어 가능성, 특정 능력 결핍에 대한 타겟팅이 제한된다. 본 연구에서는 도메인 명세로부터 직접 실행 가능하고 검증 가능한 터미널 학습 환경을 자율적으로 생성하는 제로 의존성 합성 파이프라인인 LiteCoder-Terminal-Gen을 제안한다. 이 프레임워크를 활용하여 두 가지 대규모 자원을 구축하였다: 10개 도메인에 걸친 11,255개의 전문가 궤적으로 구성된 LiteCoder-Terminal-SFT와, 궤적 수준의 선호도 최적화를 위한 602개의 검증 가능한 환경을 갖춘 LiteCoder-Terminal-RL이다. Qwen 계열 모델에 대한 지도 미세 조정 결과, 미세 조정된 에이전트는 기본 모델보다 현저히 우수한 성능을 보였다. 특히 32B 변형 모델은 Terminal Bench 1.0, 2.0, Pro에서 각각 29.06%, 18.54%, 34.00%의 pass@1을 달성하였다. 또한 RL 환경에 DMPO(Direct Multi-turn Preference Optimization)를 적용하여 추가적인 성능 향상을 얻었다. 이러한 결과는 완전히 합성된 실행 가능 환경이 복잡한 실제 명령줄 워크플로우를 마스터하기 위한 확장 가능하고 검증 가능한 감독 신호를 제공함을 체계적으로 입증한다.
English
Mastering terminal environments requires language agents capable of multi-step planning, feedback-grounded execution, and dynamic state adaptation. However, training such agents is currently bottlenecked by a reliance on scraped external repositories, which limits domain diversity, environment controllability, and the targeting of specific capability deficits. We introduce LiteCoder-Terminal-Gen, a zero-dependency synthesis pipeline that autonomously generates executable and verifiable terminal training environments directly from domain specifications. Using this framework, we construct two large-scale resources: LiteCoder-Terminal-SFT, comprising 11,255 expert trajectories across 10 domains, and LiteCoder-Terminal-RL, featuring 602 verifiable environments for trajectory-level preference optimization. Supervised fine-tuning of Qwen-family models on our SFT dataset yields agents that significantly outperform their base counterparts. Notably, our 32B variant achieves 29.06%, 18.54%, and 34.00% pass@1 on Terminal Bench 1.0, 2.0, and Pro, respectively. Furthermore, applying Direct Multi-turn Preference Optimization (DMPO) on our RL environments yields additional performance gains. These results systematically demonstrate that fully synthetic, executable environments offer a scalable and verifiable supervision signal for mastering complex, real-world command-line workflows.