Eindeloze Terminals: Schaalvergroting van RL-omgevingen voor Terminal Agents

Samenvatting

Omgevingen vormen de bottleneck voor zelfverbeterende agents. Huidige terminalbenchmarks werden gebouwd voor evaluatie, niet voor training; reinforcement learning vereist een schaalbare pijplijn, niet slechts een dataset. Wij introduceren Endless Terminals, een volledig autonome pijplijn die procedureel terminaltaken genereert zonder menselijke annotatie. De pijplijn kent vier fasen: het genereren van diverse taakbeschrijvingen, het bouwen en valideren van gecontaineriseerde omgevingen, het produceren van voltooiingstests en het filteren op oplosbaarheid. Via deze pijplijn verkrijgen we 3255 taken op het gebied van bestandsbewerkingen, logbeheer, gegevensverwerking, scripting en databaseoperaties. We trainen agents met standaard PPO met binaire beloningen op episodeniveau en een minimale interactielus: geen retrieval, multi-agentcoördinatie of gespecialiseerde tools. Ondanks deze eenvoud tonen modellen getraind op Endless Terminals aanzienlijke vooruitgang: op onze afgezonderde ontwikkelset verbetert Llama-3.2-3B van 4,0% naar 18,2%, Qwen2.5-7B van 10,7% naar 53,3% en Qwen3-8B-openthinker-sft van 42,6% naar 59,0%. Deze verbeteringen transfereren naar door mensen samengestelde benchmarks: modellen getraind op Endless Terminals tonen aanzienlijke winst op afgezonderde, door mensen gecureerde benchmarks: op TerminalBench 2.0 verbetert Llama-3.2-3B van 0,0% naar 2,2%, Qwen2.5-7B van 2,2% naar 3,4% en Qwen3-8B-openthinker-sft van 1,1% naar 6,7%, waarbij ze in elk geval alternatieve benaderingen overtreffen, inclusief modellen met complexere agent-scaffolds. Deze resultaten tonen aan dat eenvoudige reinforcement learning slaagt wanneer omgevingen schalen.

English

Environments are the bottleneck for self-improving agents. Current terminal benchmarks were built for evaluation, not training; reinforcement learning requires a scalable pipeline, not just a dataset. We introduce Endless Terminals, a fully autonomous pipeline that procedurally generates terminal-use tasks without human annotation. The pipeline has four stages: generating diverse task descriptions, building and validating containerized environments, producing completion tests, and filtering for solvability. From this pipeline we obtain 3255 tasks spanning file operations, log management, data processing, scripting, and database operations. We train agents using vanilla PPO with binary episode level rewards and a minimal interaction loop: no retrieval, multi-agent coordination, or specialized tools. Despite this simplicity, models trained on Endless Terminals show substantial gains: on our held-out dev set, Llama-3.2-3B improves from 4.0% to 18.2%, Qwen2.5-7B from 10.7% to 53.3%, and Qwen3-8B-openthinker-sft from 42.6% to 59.0%. These improvements transfer to human-curated benchmarks: models trained on Endless Terminals show substantial gains on held out human curated benchmarks: on TerminalBench 2.0, Llama-3.2-3B improves from 0.0% to 2.2%, Qwen2.5-7B from 2.2% to 3.4%, and Qwen3-8B-openthinker-sft from 1.1% to 6.7%, in each case outperforming alternative approaches including models with more complex agentic scaffolds. These results demonstrate that simple RL succeeds when environments scale.

Eindeloze Terminals: Schaalvergroting van RL-omgevingen voor Terminal Agents

Endless Terminals: Scaling RL Environments for Terminal Agents

Samenvatting

Support