Terminais Infinitos: Escalonando Ambientes de RL para Agentes de Terminal

Resumo

Os ambientes são o principal obstégulo para agentes de autoaprimoramento. Os benchmarks de terminal atuais foram construídos para avaliação, não para treinamento; o aprendizado por reforço requer um pipeline escalável, não apenas um conjunto de dados. Apresentamos o Endless Terminals, um pipeline totalmente autônomo que gera proceduralmente tarefas de uso de terminal sem anotação humana. O pipeline possui quatro estágios: geração de descrições de tarefas diversas, construção e validação de ambientes conteinerizados, produção de testes de conclusão e filtragem por solucionabilidade. Deste pipeline, obtivemos 3255 tarefas abrangendo operações de arquivos, gerenciamento de logs, processamento de dados, scriptagem e operações de banco de dados. Treinamos agentes usando PPO padrão com recompensas binárias a nível de episódio e um loop de interação mínimo: sem recuperação de informação, coordenação multiagente ou ferramentas especializadas. Apesar dessa simplicidade, os modelos treinados no Endless Terminals mostram ganhos substanciais: em nosso conjunto de desenvolvimento retido, o Llama-3.2-3B melhorou de 4,0% para 18,2%, o Qwen2.5-7B de 10,7% para 53,3% e o Qwen3-8B-openthinker-sft de 42,6% para 59,0%. Essas melhorias transferem-se para benchmarks curados por humanos: os modelos treinados no Endless Terminals mostram ganhos substanciais em benchmarks humanos retidos: no TerminalBench 2.0, o Llama-3.2-3B melhorou de 0,0% para 2,2%, o Qwen2.5-7B de 2,2% para 3,4% e o Qwen3-8B-openthinker-sft de 1,1% para 6,7%, superando em cada caso abordagens alternativas, incluindo modelos com estruturas agentuais mais complexas. Estes resultados demonstram que o RL simples tem sucesso quando os ambientes são escalados.

English

Environments are the bottleneck for self-improving agents. Current terminal benchmarks were built for evaluation, not training; reinforcement learning requires a scalable pipeline, not just a dataset. We introduce Endless Terminals, a fully autonomous pipeline that procedurally generates terminal-use tasks without human annotation. The pipeline has four stages: generating diverse task descriptions, building and validating containerized environments, producing completion tests, and filtering for solvability. From this pipeline we obtain 3255 tasks spanning file operations, log management, data processing, scripting, and database operations. We train agents using vanilla PPO with binary episode level rewards and a minimal interaction loop: no retrieval, multi-agent coordination, or specialized tools. Despite this simplicity, models trained on Endless Terminals show substantial gains: on our held-out dev set, Llama-3.2-3B improves from 4.0% to 18.2%, Qwen2.5-7B from 10.7% to 53.3%, and Qwen3-8B-openthinker-sft from 42.6% to 59.0%. These improvements transfer to human-curated benchmarks: models trained on Endless Terminals show substantial gains on held out human curated benchmarks: on TerminalBench 2.0, Llama-3.2-3B improves from 0.0% to 2.2%, Qwen2.5-7B from 2.2% to 3.4%, and Qwen3-8B-openthinker-sft from 1.1% to 6.7%, in each case outperforming alternative approaches including models with more complex agentic scaffolds. These results demonstrate that simple RL succeeds when environments scale.

Terminais Infinitos: Escalonando Ambientes de RL para Agentes de Terminal

Endless Terminals: Scaling RL Environments for Terminal Agents

Resumo

Support