Endlose Terminale: Skalierung von RL-Umgebungen für Terminal-Agenten

papers.abstract

Umgebungen sind der Engpass für sich selbst verbessernde Agenten. Aktuelle Terminal-Benchmarks wurden für die Evaluation, nicht für das Training entwickelt; Reinforcement Learning erfordert eine skalierbare Pipeline, nicht nur einen Datensatz. Wir stellen Endless Terminals vor, eine vollständig autonome Pipeline, die prozedural Terminal-Aufgaben ohne menschliche Annotation erzeugt. Die Pipeline umfasst vier Stufen: Generierung vielfältiger Aufgabenbeschreibungen, Erstellung und Validierung containerisierter Umgebungen, Erzeugung von Abschlusstests und Filterung nach Lösbarkeit. Aus dieser Pipeline gewinnen wir 3255 Aufgaben, die Dateioperationen, Log-Management, Datenverarbeitung, Skripterstellung und Datenbankoperationen abdecken. Wir trainieren Agenten mit standardmäßigem PPO mit binären Belohnungen auf Episodenebene und einer minimalen Interaktionsschleife: ohne Retrieval, Multi-Agenten-Koordination oder spezielle Werkzeuge. Trotz dieser Einfachheit zeigen auf Endless Terminals trainierte Modelle erhebliche Verbesserungen: Auf unserem zurückgehaltenen Dev-Set verbessert sich Llama-3.2-3B von 4,0 % auf 18,2 %, Qwen2.5-7B von 10,7 % auf 53,3 % und Qwen3-8B-openthinker-sft von 42,6 % auf 59,0 %. Diese Verbesserungen übertragen sich auf human-kurierte Benchmarks: Modelle, die auf Endless Terminals trainiert wurden, zeigen erhebliche Gewinne auf zurückgehaltenen, human-kurierten Benchmarks: Auf TerminalBench 2.0 verbessert sich Llama-3.2-3B von 0,0 % auf 2,2 %, Qwen2.5-7B von 2,2 % auf 3,4 % und Qwen3-8B-openthinker-sft von 1,1 % auf 6,7 % und übertrifft dabei in jedem Fall alternative Ansätze, einschließlich Modelle mit komplexeren Agenten-Scaffolds. Diese Ergebnisse demonstrieren, dass einfaches RL erfolgreich ist, wenn Umgebungen skalieren.

English

Environments are the bottleneck for self-improving agents. Current terminal benchmarks were built for evaluation, not training; reinforcement learning requires a scalable pipeline, not just a dataset. We introduce Endless Terminals, a fully autonomous pipeline that procedurally generates terminal-use tasks without human annotation. The pipeline has four stages: generating diverse task descriptions, building and validating containerized environments, producing completion tests, and filtering for solvability. From this pipeline we obtain 3255 tasks spanning file operations, log management, data processing, scripting, and database operations. We train agents using vanilla PPO with binary episode level rewards and a minimal interaction loop: no retrieval, multi-agent coordination, or specialized tools. Despite this simplicity, models trained on Endless Terminals show substantial gains: on our held-out dev set, Llama-3.2-3B improves from 4.0% to 18.2%, Qwen2.5-7B from 10.7% to 53.3%, and Qwen3-8B-openthinker-sft from 42.6% to 59.0%. These improvements transfer to human-curated benchmarks: models trained on Endless Terminals show substantial gains on held out human curated benchmarks: on TerminalBench 2.0, Llama-3.2-3B improves from 0.0% to 2.2%, Qwen2.5-7B from 2.2% to 3.4%, and Qwen3-8B-openthinker-sft from 1.1% to 6.7%, in each case outperforming alternative approaches including models with more complex agentic scaffolds. These results demonstrate that simple RL succeeds when environments scale.

Endlose Terminale: Skalierung von RL-Umgebungen für Terminal-Agenten

Endless Terminals: Scaling RL Environments for Terminal Agents

papers.abstract

Support