Tmax: Простой рецепт для терминальных агентов

Аннотация

Агенты, использующие терминал, быстро стали самым популярным прикладным применением языковых моделей (ЯМ). Несмотря на их распространенность, относительно мало академических работ исследовало обучение этих моделей на основе обучения с подкреплением (RL), вероятно, из-за сложных бенчмарков, нехватки данных и отсутствия простых базовых рецептов. Мы представляем Tmax — сильнейший на сегодняшний день открытый RL-рецепт для терминальных агентов, приближающий открытые рецепты данных к передовому краю. Несмотря на свою простоту, наш рецепт достигает 27% на Terminal-Bench 2.0 всего с 9 миллиардами параметров, превосходя гораздо более крупные модели из предыдущих работ. В частности, мы генерируем данные с помощью новой таксономии, сочетающей контроль сложности, персоны и диверсификацию верификаторов, что позволяет нам недорого генерировать большие объемы терминальных сред для обучения с подкреплением (RL) и обучения с учителем (SFT). Мы публикуем с открытым исходным кодом наш терминальный набор данных, который более чем в 2,5 раза превосходит по размеру ранее опубликованные наборы данных для терминальных агентов. Затем мы обучаем модели с открытыми весами с помощью RL на наших данных, используя простой рецепт, основанный только на результатах. Мы публикуем наши данные, модели и код как надежный базовый ориентир для будущих открытых академических работ по терминальным агентам по адресу https://github.com/hamishivi/tmax.

English

Terminal-using agents have quickly become the most popular downstream application of language models (LMs). Despite their prevalence, relatively little academic work has examined RL-based training of these models, likely due to difficult benchmarks, a lack of data, and a lack of simple baseline recipes. We present Tmax, the strongest open RL recipe for terminal agents to date, bringing open data recipes closer to the frontier. While simple, our recipe achieves 27\% on Terminal-Bench 2.0 with only 9B parameters, outperforming much larger models from prior work. Concretely, we generate data using a novel taxonomy, combining difficulty control, personas, and verifier diversification, which allows us to cheaply generate large amounts of terminal environments for RL and SFT training. We open-source our terminal dataset, which is over 2.5x larger than previously released terminal-agent datasets. We then train open-weight models using RL with our data, using a simple, outcome-only recipe. We release our data, models, and code as a strong baseline for future open academic work on terminal agents at https://github.com/hamishivi/tmax.