Tmax: Una receta simple para agentes terminales

Resumen

Los agentes que utilizan terminales se han convertido rápidamente en la aplicación descendente más popular de los modelos de lenguaje (ML). A pesar de su prevalencia, pocos trabajos académicos han examinado el entrenamiento basado en RL de estos modelos, probablemente debido a la dificultad de los benchmarks, la falta de datos y la ausencia de recetas base sencillas. Presentamos Tmax, la receta de RL abierta más potente hasta la fecha para agentes de terminal, que acerca las recetas abiertas de datos a la frontera. Aunque simple, nuestra receta alcanza un 27% en Terminal-Bench 2.0 con solo 9 mil millones de parámetros, superando modelos mucho más grandes de trabajos previos. En concreto, generamos datos utilizando una taxonomía novedosa que combina control de dificultad, personajes y diversificación de verificadores, lo que nos permite generar de forma económica grandes cantidades de entornos de terminal para entrenamiento RL y SFT. Publicamos nuestro conjunto de datos de terminal, que es más de 2.5 veces mayor que los conjuntos de datos de agentes de terminal publicados anteriormente. Luego, entrenamos modelos de pesos abiertos mediante RL con nuestros datos, utilizando una receta sencilla basada únicamente en resultados. Liberamos nuestros datos, modelos y código como una referencia sólida para futuros trabajos académicos abiertos sobre agentes de terminal en https://github.com/hamishivi/tmax.

English

Terminal-using agents have quickly become the most popular downstream application of language models (LMs). Despite their prevalence, relatively little academic work has examined RL-based training of these models, likely due to difficult benchmarks, a lack of data, and a lack of simple baseline recipes. We present Tmax, the strongest open RL recipe for terminal agents to date, bringing open data recipes closer to the frontier. While simple, our recipe achieves 27\% on Terminal-Bench 2.0 with only 9B parameters, outperforming much larger models from prior work. Concretely, we generate data using a novel taxonomy, combining difficulty control, personas, and verifier diversification, which allows us to cheaply generate large amounts of terminal environments for RL and SFT training. We open-source our terminal dataset, which is over 2.5x larger than previously released terminal-agent datasets. We then train open-weight models using RL with our data, using a simple, outcome-only recipe. We release our data, models, and code as a strong baseline for future open academic work on terminal agents at https://github.com/hamishivi/tmax.