ChatPaper.aiChatPaper

CLI-Gym: 에이전트 기반 환경 역변환을 통한 확장 가능한 CLI 작업 생성

CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion

February 11, 2026
저자: Yusong Lin, Haiyang Wang, Shuzhe Wu, Lue Fan, Feiyang Pan, Sanyuan Zhao, Dandan Tu
cs.AI

초록

에이전트 코딩은 에이전트가 명령줄 인터페이스(CLI)와 같은 런타임 환경과 효과적으로 상호작용하여 의존성 문제 해결, 시스템 문제 수치 등의 작업을 완료할 수 있도록 요구합니다. 그러나 이러한 환경 집약적 작업을 대규모로 확보하여 에이전트의 능력을 향상시키는 방법은 아직 충분히 연구되지 않았습니다. 이를 해결하기 위해 Dockerfile과 에이전트 작업 간의 유사성에 기반하여, 실행 피드백을 안내자로 삼아 에이전트가 환경 기록을 시뮬레이션하고 탐색하도록 제안합니다. 정상적인 환경의 기록을 추적함으로써, 해당 상태를 런타임 오류가 발생한 이전 상태로 역전시킬 수 있으며, 여기서 버그가 있는 상태와 해당 오류 메시지를 패키징하여 작업을 도출할 수 있습니다. CLI-Gym이라는 우리의 방법을 통해 총 1,655개의 환경 집약적 작업이 도출되었으며, 이는 해당 분야 최대 규모의 컬렉션입니다. 더불어, 선별된 성공적인 궤적을 활용하여 LiberCoder라는 이름으로 미세 조정된 우리 모델은 Terminal-Bench에서 +21.1%p(46.1%로)의 상당한 절대적 성능 향상을 달성하여 다양한 강력한 베이스라인 모델을 능가했습니다. 우리가 아는 한, 이는 환경 집약적 작업의 확장 가능한 도출을 위한 최초의 공개 파이프라인입니다.
English
Agentic coding requires agents to effectively interact with runtime environments, e.g., command line interfaces (CLI), so as to complete tasks like resolving dependency issues, fixing system problems, etc. But it remains underexplored how such environment-intensive tasks can be obtained at scale to enhance agents' capabilities. To address this, based on an analogy between the Dockerfile and the agentic task, we propose to employ agents to simulate and explore environment histories, guided by execution feedback. By tracing histories of a healthy environment, its state can be inverted to an earlier one with runtime failures, from which a task can be derived by packing the buggy state and the corresponding error messages. With our method, named CLI-Gym, a total of 1,655 environment-intensive tasks are derived, being the largest collection of its kind. Moreover, with curated successful trajectories, our fine-tuned model, named LiberCoder, achieves substantial absolute improvements of +21.1% (to 46.1%) on Terminal-Bench, outperforming various strong baselines. To our knowledge, this is the first public pipeline for scalable derivation of environment-intensive tasks.
PDF100February 13, 2026