Tmax : Une recette simple pour agents terminaux

Résumé

Les agents utilisant le terminal sont rapidement devenus l'application aval la plus populaire des modèles de langage (ML). Malgré leur prévalence, relativement peu de travaux académiques ont examiné la formation basée sur l'apprentissage par renforcement (RL) de ces modèles, probablement en raison de références difficiles, d'un manque de données et de l'absence de recettes de base simples. Nous présentons Tmax, la meilleure recette RL open source à ce jour pour les agents terminaux, rapprochant les recettes de données ouvertes de la frontière. Bien que simple, notre recette atteint 27 % sur Terminal-Bench 2.0 avec seulement 9 milliards de paramètres, surpassant des modèles beaucoup plus grands issus de travaux antérieurs. Concrètement, nous générons des données à l'aide d'une nouvelle taxonomie, combinant contrôle de la difficulté, personas et diversification des vérificateurs, ce qui nous permet de produire à moindre coût de grandes quantités d'environnements terminaux pour l'entraînement RL et SFT. Nous publions en open source notre ensemble de données terminales, qui est plus de 2,5 fois plus grand que les ensembles de données d'agents terminaux précédemment publiés. Nous entraînons ensuite des modèles à poids ouverts en utilisant RL avec nos données, selon une recette simple basée uniquement sur les résultats. Nous publions nos données, modèles et code comme référence solide pour les futurs travaux académiques ouverts sur les agents terminaux à l'adresse https://github.com/hamishivi/tmax.

English

Terminal-using agents have quickly become the most popular downstream application of language models (LMs). Despite their prevalence, relatively little academic work has examined RL-based training of these models, likely due to difficult benchmarks, a lack of data, and a lack of simple baseline recipes. We present Tmax, the strongest open RL recipe for terminal agents to date, bringing open data recipes closer to the frontier. While simple, our recipe achieves 27\% on Terminal-Bench 2.0 with only 9B parameters, outperforming much larger models from prior work. Concretely, we generate data using a novel taxonomy, combining difficulty control, personas, and verifier diversification, which allows us to cheaply generate large amounts of terminal environments for RL and SFT training. We open-source our terminal dataset, which is over 2.5x larger than previously released terminal-agent datasets. We then train open-weight models using RL with our data, using a simple, outcome-only recipe. We release our data, models, and code as a strong baseline for future open academic work on terminal agents at https://github.com/hamishivi/tmax.