Terminaux Infinis : Mise à l'échelle des environnements d'apprentissage par renforcement pour agents terminaux

Résumé

Les environnements constituent le goulot d'étranglement pour les agents auto-améliorants. Les benchmarks de terminal actuels ont été conçus pour l'évaluation, non pour l'entraînement ; l'apprentissage par renforcement nécessite un pipeline évolutif, pas seulement un jeu de données. Nous présentons Endless Terminals, un pipeline entièrement autonome qui génère de manière procédurale des tâches d'utilisation du terminal sans annotation humaine. Le pipeline comporte quatre étapes : la génération de descriptions de tâches diversifiées, la construction et la validation d'environnement conteneurisés, la production de tests de complétion et le filtrage selon la solvabilité. Grâce à ce pipeline, nous obtenons 3255 tâches couvrant les opérations sur fichiers, la gestion de logs, le traitement de données, les scripts et les opérations sur bases de données. Nous entraînons des agents en utilisant l'algorithme PPO standard avec des récompenses binaires au niveau de l'épisode et une boucle d'interaction minimale : pas de recherche d'information, pas de coordination multi-agents ni d'outils spécialisés. Malgré cette simplicité, les modèles entraînés sur Endless Terminals montrent des gains substantiels : sur notre ensemble de développement réservé, Llama-3.2-3B passe de 4,0 % à 18,2 %, Qwen2.5-7B de 10,7 % à 53,3 % et Qwen3-8B-openthinker-sft de 42,6 % à 59,0 %. Ces améliorations se transfèrent aux benchmarks organisés par des humains : les modèles entraînés sur Endless Terminals montrent des gains substantiels sur des benchmarks de référence organisés par des humains et réservés : sur TerminalBench 2.0, Llama-3.2-3B passe de 0,0 % à 2,2 %, Qwen2.5-7B de 2,2 % à 3,4 % et Qwen3-8B-openthinker-sft de 1,1 % à 6,7 %, surpassant à chaque fois les approches alternatives, y compris les modèles dotés d'échafaudages agentiques plus complexes. Ces résultats démontrent qu'un apprentissage par renforcement simple réussit lorsque les environnements sont mis à l'échelle.

English

Environments are the bottleneck for self-improving agents. Current terminal benchmarks were built for evaluation, not training; reinforcement learning requires a scalable pipeline, not just a dataset. We introduce Endless Terminals, a fully autonomous pipeline that procedurally generates terminal-use tasks without human annotation. The pipeline has four stages: generating diverse task descriptions, building and validating containerized environments, producing completion tests, and filtering for solvability. From this pipeline we obtain 3255 tasks spanning file operations, log management, data processing, scripting, and database operations. We train agents using vanilla PPO with binary episode level rewards and a minimal interaction loop: no retrieval, multi-agent coordination, or specialized tools. Despite this simplicity, models trained on Endless Terminals show substantial gains: on our held-out dev set, Llama-3.2-3B improves from 4.0% to 18.2%, Qwen2.5-7B from 10.7% to 53.3%, and Qwen3-8B-openthinker-sft from 42.6% to 59.0%. These improvements transfer to human-curated benchmarks: models trained on Endless Terminals show substantial gains on held out human curated benchmarks: on TerminalBench 2.0, Llama-3.2-3B improves from 0.0% to 2.2%, Qwen2.5-7B from 2.2% to 3.4%, and Qwen3-8B-openthinker-sft from 1.1% to 6.7%, in each case outperforming alternative approaches including models with more complex agentic scaffolds. These results demonstrate that simple RL succeeds when environments scale.

Terminaux Infinis : Mise à l'échelle des environnements d'apprentissage par renforcement pour agents terminaux

Endless Terminals: Scaling RL Environments for Terminal Agents

Résumé

Support