ChatPaper.aiChatPaper

Terminales Infinitos: Escalado de Entornos de Aprendizaje por Refuerzo para Agentes Terminales

Endless Terminals: Scaling RL Environments for Terminal Agents

January 23, 2026
Autores: Kanishk Gandhi, Shivam Garg, Noah D. Goodman, Dimitris Papailiopoulos
cs.AI

Resumen

Los entornos son el cuello de botella para los agentes de auto-mejora. Los benchmarks de terminal actuales fueron construidos para evaluación, no para entrenamiento; el aprendizaje por refuerzo requiere una pipeline escalable, no solo un conjunto de datos. Presentamos Endless Terminals, una pipeline completamente autónoma que genera de manera procedural tareas de uso de terminal sin anotación humana. La pipeline consta de cuatro etapas: generación de descripciones de tareas diversas, construcción y validación de entornos containerizados, producción de pruebas de finalización y filtrado por capacidad de resolución. A partir de esta pipeline obtenemos 3255 tareas que abarcan operaciones de archivos, gestión de logs, procesamiento de datos, scripting y operaciones de bases de datos. Entrenamos agentes usando PPO estándar con recompensas binarias a nivel de episodio y un bucle de interacción mínimo: sin recuperación de información, coordinación multi-agente o herramientas especializadas. A pesar de esta simplicidad, los modelos entrenados en Endless Terminals muestran mejoras sustanciales: en nuestro conjunto de desarrollo reservado, Llama-3.2-3B mejora del 4.0% al 18.2%, Qwen2.5-7B del 10.7% al 53.3%, y Qwen3-8B-openthinker-sft del 42.6% al 59.0%. Estas mejoras se transfieren a benchmarks curados por humanos: los modelos entrenados en Endless Terminals muestran ganancias sustanciales en benchmarks reservados curados por humanos: en TerminalBench 2.0, Llama-3.2-3B mejora del 0.0% al 2.2%, Qwen2.5-7B del 2.2% al 3.4%, y Qwen3-8B-openthinker-sft del 1.1% al 6.7%, superando en cada caso a enfoques alternativos, incluidos modelos con andamiajes agentivos más complejos. Estos resultados demuestran que el aprendizaje por refuerzo simple tiene éxito cuando los entornos escalan.
English
Environments are the bottleneck for self-improving agents. Current terminal benchmarks were built for evaluation, not training; reinforcement learning requires a scalable pipeline, not just a dataset. We introduce Endless Terminals, a fully autonomous pipeline that procedurally generates terminal-use tasks without human annotation. The pipeline has four stages: generating diverse task descriptions, building and validating containerized environments, producing completion tests, and filtering for solvability. From this pipeline we obtain 3255 tasks spanning file operations, log management, data processing, scripting, and database operations. We train agents using vanilla PPO with binary episode level rewards and a minimal interaction loop: no retrieval, multi-agent coordination, or specialized tools. Despite this simplicity, models trained on Endless Terminals show substantial gains: on our held-out dev set, Llama-3.2-3B improves from 4.0% to 18.2%, Qwen2.5-7B from 10.7% to 53.3%, and Qwen3-8B-openthinker-sft from 42.6% to 59.0%. These improvements transfer to human-curated benchmarks: models trained on Endless Terminals show substantial gains on held out human curated benchmarks: on TerminalBench 2.0, Llama-3.2-3B improves from 0.0% to 2.2%, Qwen2.5-7B from 2.2% to 3.4%, and Qwen3-8B-openthinker-sft from 1.1% to 6.7%, in each case outperforming alternative approaches including models with more complex agentic scaffolds. These results demonstrate that simple RL succeeds when environments scale.
PDF51January 27, 2026