Tmax: een eenvoudig recept voor terminale agenten

Samenvatting

Terminalgebruikende agents zijn snel de populairste downstream-toepassing van taalmodellen (TM's) geworden. Ondanks hun prevalentie is er relatief weinig academisch werk verricht naar op RL gebaseerde training van deze modellen, waarschijnlijk vanwege moeilijke benchmarks, een gebrek aan data en een gebrek aan eenvoudige basisrecepten. We presenteren Tmax, het sterkste open RL-recept voor terminalagents tot nu toe, waarmee open datarecepten dichter bij de frontlinie worden gebracht. Hoewel eenvoudig, behaalt ons recept 27% op Terminal-Bench 2.0 met slechts 9B parameters, waarmee het veel grotere modellen uit eerder werk overtreft. Concreet genereren we data met behulp van een nieuwe taxonomie, die moeilijkheidsbeheersing, persona's en verifier-diversificatie combineert, waardoor we goedkoop grote hoeveelheden terminalomgevingen kunnen genereren voor RL- en SFT-training. We maken onze terminaldataset open source, die meer dan 2,5 keer groter is dan eerder uitgebrachte terminalagent-datasets. Vervolgens trainen we open-gewichtsmodellen met behulp van RL met onze data, met een eenvoudig, uitsluitend op uitkomst gericht recept. We geven onze data, modellen en code vrij als een sterke basislijn voor toekomstig open academisch werk over terminalagents op https://github.com/hamishivi/tmax.

English

Terminal-using agents have quickly become the most popular downstream application of language models (LMs). Despite their prevalence, relatively little academic work has examined RL-based training of these models, likely due to difficult benchmarks, a lack of data, and a lack of simple baseline recipes. We present Tmax, the strongest open RL recipe for terminal agents to date, bringing open data recipes closer to the frontier. While simple, our recipe achieves 27\% on Terminal-Bench 2.0 with only 9B parameters, outperforming much larger models from prior work. Concretely, we generate data using a novel taxonomy, combining difficulty control, personas, and verifier diversification, which allows us to cheaply generate large amounts of terminal environments for RL and SFT training. We open-source our terminal dataset, which is over 2.5x larger than previously released terminal-agent datasets. We then train open-weight models using RL with our data, using a simple, outcome-only recipe. We release our data, models, and code as a strong baseline for future open academic work on terminal agents at https://github.com/hamishivi/tmax.