Tmax: Ein einfaches Rezept für terminale Agenten

Zusammenfassung

Terminal-Agenten haben sich schnell zur beliebtesten Downstream-Anwendung von Sprachmodellen entwickelt. Trotz ihrer weiten Verbreitung gibt es relativ wenige akademische Arbeiten zum RL-basierten Training dieser Modelle, was vermutlich an schwierigen Benchmarks, einem Mangel an Daten und dem Fehlen einfacher Basisrezepte liegt. Wir stellen Tmax vor, das bisher stärkste offene RL-Rezept für Terminal-Agenten, das offene Datenrezepte näher an die Spitzenforschung heranführt. Trotz seiner Einfachheit erreicht unser Rezept mit nur 9B Parametern 27 % auf Terminal-Bench 2.0 und übertrifft damit deutlich größere Modelle aus früheren Arbeiten. Konkret generieren wir Daten mithilfe einer neuartigen Taxonomie, die Schwierigkeitskontrolle, Personas und Verifier-Diversifizierung kombiniert, sodass wir kostengünstig große Mengen an Terminal-Umgebungen für RL- und SFT-Training erzeugen können. Wir veröffentlichen unseren Terminal-Datensatz als Open Source, der mehr als 2,5-mal größer ist als zuvor veröffentlichte Terminal-Agenten-Datensätze. Anschließend trainieren wir Modelle mit offenen Gewichten mittels RL auf unseren Daten, unter Verwendung eines einfachen, rein ergebnisbasierten Rezepts. Wir geben unsere Daten, Modelle und unseren Code als starke Baseline für zukünftige offene akademische Arbeiten zu Terminal-Agenten unter https://github.com/hamishivi/tmax frei.

English

Terminal-using agents have quickly become the most popular downstream application of language models (LMs). Despite their prevalence, relatively little academic work has examined RL-based training of these models, likely due to difficult benchmarks, a lack of data, and a lack of simple baseline recipes. We present Tmax, the strongest open RL recipe for terminal agents to date, bringing open data recipes closer to the frontier. While simple, our recipe achieves 27\% on Terminal-Bench 2.0 with only 9B parameters, outperforming much larger models from prior work. Concretely, we generate data using a novel taxonomy, combining difficulty control, personas, and verifier diversification, which allows us to cheaply generate large amounts of terminal environments for RL and SFT training. We open-source our terminal dataset, which is over 2.5x larger than previously released terminal-agent datasets. We then train open-weight models using RL with our data, using a simple, outcome-only recipe. We release our data, models, and code as a strong baseline for future open academic work on terminal agents at https://github.com/hamishivi/tmax.