ChatPaper.aiChatPaper

무한 터미널: 터미널 에이전트를 위한 강화학습 환경 확장

Endless Terminals: Scaling RL Environments for Terminal Agents

January 23, 2026
저자: Kanishk Gandhi, Shivam Garg, Noah D. Goodman, Dimitris Papailiopoulos
cs.AI

초록

환경은 자기 개선 에이전트의 병목 현상이다. 기존 터미널 벤치마크는 훈련이 아닌 평가를 위해 구축되었으며, 강화 학습에는 데이터셋 이상의 확장 가능한 파이프라인이 필요하다. 우리는 인간 주석 없이 절차적으로 터미널 사용 작업을 생성하는 완전 자율 파이프라인인 Endless Terminals를 소개한다. 이 파이프라인은 다양한 작업 설명 생성, 컨테이너화된 환경 구축 및 검증, 완료 테스트 생성, 해결 가능성 필터링의 네 단계로 구성된다. 이를 통해 파일 작업, 로그 관리, 데이터 처리, 스크립팅, 데이터베이스 운영에 이르는 3255개 작업을 확보했다. 우리는 이진 에피소드 수준 보상과 검색, 다중 에이전트 조정, 전용 도구 없이 최소한의 상호작용 루프를 사용한 기본 PPO로 에이전트를 훈련시켰다. 이러한 단순함에도 불구하고 Endless Terminals로 훈련된 모델은 큰 향상을 보였다: 우리의 홀드아웃 개발 세트에서 Llama-3.2-3B는 4.0%에서 18.2%로, Qwen2.5-7B는 10.7%에서 53.3%로, Qwen3-8B-openthinker-sft는 42.6%에서 59.0%로 개선되었다. 이러한 개선 효과는 인간이 선별한 벤치마크로도 전이된다: Endless Terminals로 훈련된 모델은 TerminalBench 2.0에서 Llama-3.2-3B가 0.0%에서 2.2%로, Qwen2.5-7B가 2.2%에서 3.4%로, Qwen3-8B-openthinker-sft가 1.1%에서 6.7%로 향상되었으며, 각 경우 더 복잡한 에이전트 스캐폴드를 가진 모델을 포함한 대안적 접근법을 능가했다. 이러한 결과는 환경이 확장될 때 단순한 RL이 성공할 수 있음을 입증한다.
English
Environments are the bottleneck for self-improving agents. Current terminal benchmarks were built for evaluation, not training; reinforcement learning requires a scalable pipeline, not just a dataset. We introduce Endless Terminals, a fully autonomous pipeline that procedurally generates terminal-use tasks without human annotation. The pipeline has four stages: generating diverse task descriptions, building and validating containerized environments, producing completion tests, and filtering for solvability. From this pipeline we obtain 3255 tasks spanning file operations, log management, data processing, scripting, and database operations. We train agents using vanilla PPO with binary episode level rewards and a minimal interaction loop: no retrieval, multi-agent coordination, or specialized tools. Despite this simplicity, models trained on Endless Terminals show substantial gains: on our held-out dev set, Llama-3.2-3B improves from 4.0% to 18.2%, Qwen2.5-7B from 10.7% to 53.3%, and Qwen3-8B-openthinker-sft from 42.6% to 59.0%. These improvements transfer to human-curated benchmarks: models trained on Endless Terminals show substantial gains on held out human curated benchmarks: on TerminalBench 2.0, Llama-3.2-3B improves from 0.0% to 2.2%, Qwen2.5-7B from 2.2% to 3.4%, and Qwen3-8B-openthinker-sft from 1.1% to 6.7%, in each case outperforming alternative approaches including models with more complex agentic scaffolds. These results demonstrate that simple RL succeeds when environments scale.
PDF51January 27, 2026