ChatPaper.aiChatPaper

エンドレスターミナル:ターミナルエージェントのための強化学習環境のスケーリング

Endless Terminals: Scaling RL Environments for Terminal Agents

January 23, 2026
著者: Kanishk Gandhi, Shivam Garg, Noah D. Goodman, Dimitris Papailiopoulos
cs.AI

要旨

環境は自己改善型エージェントのボトルネックである。現在のターミナルベンチマークは評価用に構築されており、学習用ではない。強化学習にはデータセットだけでなく、スケーラブルなパイプラインが求められる。我々は、人間の注釈を必要とせずにターミナル使用タスクを手続き的に生成する完全自律パイプライン「Endless Terminals」を提案する。このパイプラインは、多様なタスク記述の生成、コンテナ化環境の構築と検証、完了テストの作成、解決可能性によるフィルタリングの4段階からなる。本パイプラインから、ファイル操作、ログ管理、データ処理、スクリプティング、データベース操作にわたる3255のタスクを獲得した。エージェントの学習には、二値のエピソード単位報酬と最小限のインタラクションループ(検索、マルチエージェント協調、専用ツールなし)を用いた標準PPOを採用した。この単純さにも関わらず、Endless Terminalsで学習したモデルは大幅な性能向上を示した:保留開発セットでは、Llama-3.2-3Bが4.0%から18.2%に、Qwen2.5-7Bが10.7%から53.3%に、Qwen3-8B-openthinker-sftが42.6%から59.0%に改善した。この改善は人手で精選されたベンチマークにも転移し:TerminalBench 2.0では、Llama-3.2-3Bが0.0%から2.2%に、Qwen2.5-7Bが2.2%から3.4%に、Qwen3-8B-openthinker-sftが1.1%から6.7%に改善し、より複雑なエージェント基盤を有するモデルを含む他の手法をいずれのケースでも上回った。これらの結果は、環境がスケールすれば単純なRLが成功することを実証している。
English
Environments are the bottleneck for self-improving agents. Current terminal benchmarks were built for evaluation, not training; reinforcement learning requires a scalable pipeline, not just a dataset. We introduce Endless Terminals, a fully autonomous pipeline that procedurally generates terminal-use tasks without human annotation. The pipeline has four stages: generating diverse task descriptions, building and validating containerized environments, producing completion tests, and filtering for solvability. From this pipeline we obtain 3255 tasks spanning file operations, log management, data processing, scripting, and database operations. We train agents using vanilla PPO with binary episode level rewards and a minimal interaction loop: no retrieval, multi-agent coordination, or specialized tools. Despite this simplicity, models trained on Endless Terminals show substantial gains: on our held-out dev set, Llama-3.2-3B improves from 4.0% to 18.2%, Qwen2.5-7B from 10.7% to 53.3%, and Qwen3-8B-openthinker-sft from 42.6% to 59.0%. These improvements transfer to human-curated benchmarks: models trained on Endless Terminals show substantial gains on held out human curated benchmarks: on TerminalBench 2.0, Llama-3.2-3B improves from 0.0% to 2.2%, Qwen2.5-7B from 2.2% to 3.4%, and Qwen3-8B-openthinker-sft from 1.1% to 6.7%, in each case outperforming alternative approaches including models with more complex agentic scaffolds. These results demonstrate that simple RL succeeds when environments scale.
PDF51January 27, 2026