Terminali Infiniti: Scalabilità degli Ambienti di RL per Agenti Terminali

Abstract

Gli ambienti rappresentano il collo di bottiglia per gli agenti capaci di auto-miglioramento. I benchmark per terminale attuali sono stati costruiti per la valutazione, non per l'addestramento; l'apprendimento per rinforzo richiede una pipeline scalabile, non solo un dataset. Introduciamo Endless Terminals, una pipeline completamente autonoma che genera proceduralmente compiti di utilizzo del terminale senza annotazione umana. La pipeline si articola in quattro fasi: generazione di descrizioni di compiti diversificate, creazione e convalida di ambienti containerizzati, produzione di test di completamento e filtraggio per la risolvibilità. Da questa pipeline otteniamo 3255 compiti che spaziano dalle operazioni sui file alla gestione dei log, all'elaborazione dei dati, allo scripting e alle operazioni sui database. Addestriamo gli agenti utilizzando PPO standard con ricompense binarie a livello di episodio e un ciclo di interazione minimale: niente retrieval, coordinamento multi-agente o strumenti specializzati. Nonostante questa semplicità, i modelli addestrati su Endless Terminals mostrano miglioramenti sostanziali: sul nostro set di sviluppo tenuto da parte, Llama-3.2-3B passa dal 4.0% al 18.2%, Qwen2.5-7B dal 10.7% al 53.3% e Qwen3-8B-openthinker-sft dal 42.6% al 59.0%. Questi miglioramenti si trasferiscono a benchmark curati da umani: i modelli addestrati su Endless Terminals mostrano guadagni sostanziali su benchmark tenuti da parte e curati da umani: su TerminalBench 2.0, Llama-3.2-3B passa dallo 0.0% al 2.2%, Qwen2.5-7B dal 2.2% al 3.4% e Qwen3-8B-openthinker-sft dall'1.1% al 6.7%, superando in ogni caso approcci alternativi, inclusi modelli con architetture agentiche più complesse. Questi risultati dimostrano che un RL semplice ha successo quando gli ambienti sono scalabili.

English

Environments are the bottleneck for self-improving agents. Current terminal benchmarks were built for evaluation, not training; reinforcement learning requires a scalable pipeline, not just a dataset. We introduce Endless Terminals, a fully autonomous pipeline that procedurally generates terminal-use tasks without human annotation. The pipeline has four stages: generating diverse task descriptions, building and validating containerized environments, producing completion tests, and filtering for solvability. From this pipeline we obtain 3255 tasks spanning file operations, log management, data processing, scripting, and database operations. We train agents using vanilla PPO with binary episode level rewards and a minimal interaction loop: no retrieval, multi-agent coordination, or specialized tools. Despite this simplicity, models trained on Endless Terminals show substantial gains: on our held-out dev set, Llama-3.2-3B improves from 4.0% to 18.2%, Qwen2.5-7B from 10.7% to 53.3%, and Qwen3-8B-openthinker-sft from 42.6% to 59.0%. These improvements transfer to human-curated benchmarks: models trained on Endless Terminals show substantial gains on held out human curated benchmarks: on TerminalBench 2.0, Llama-3.2-3B improves from 0.0% to 2.2%, Qwen2.5-7B from 2.2% to 3.4%, and Qwen3-8B-openthinker-sft from 1.1% to 6.7%, in each case outperforming alternative approaches including models with more complex agentic scaffolds. These results demonstrate that simple RL succeeds when environments scale.

Terminali Infiniti: Scalabilità degli Ambienti di RL per Agenti Terminali

Endless Terminals: Scaling RL Environments for Terminal Agents

Abstract

Support