Entrenando Agentes y Verificadores de Ingeniería de Software con SWE-Gym
Training Software Engineering Agents and Verifiers with SWE-Gym
December 30, 2024
Autores: Jiayi Pan, Xingyao Wang, Graham Neubig, Navdeep Jaitly, Heng Ji, Alane Suhr, Yizhe Zhang
cs.AI
Resumen
Presentamos SWE-Gym, el primer entorno para entrenar agentes de ingeniería de software (SWE) del mundo real. SWE-Gym contiene 2,438 instancias de tareas de Python del mundo real, cada una compuesta por una base de código con un entorno de ejecución ejecutable, pruebas unitarias y una tarea especificada en lenguaje natural. Utilizamos SWE-Gym para entrenar agentes de SWE basados en modelos de lenguaje, logrando hasta un aumento absoluto del 19% en la tasa de resolución en los populares conjuntos de pruebas SWE-Bench Verified y Lite. También experimentamos con la escalabilidad en tiempo de inferencia a través de verificadores entrenados en trayectorias de agentes muestreadas de SWE-Gym. Al combinar esto con nuestros agentes de SWE ajustados, logramos un 32.0% y 26.0% en SWE-Bench Verified y Lite, respectivamente, lo que refleja un nuevo estado del arte para agentes de SWE de peso abierto. Para facilitar investigaciones adicionales, publicamos de forma pública SWE-Gym, modelos y trayectorias de agentes.
English
We present SWE-Gym, the first environment for training real-world software
engineering (SWE) agents. SWE-Gym contains 2,438 real-world Python task
instances, each comprising a codebase with an executable runtime environment,
unit tests, and a task specified in natural language. We use SWE-Gym to train
language model based SWE agents , achieving up to 19% absolute gains in resolve
rate on the popular SWE-Bench Verified and Lite test sets. We also experiment
with inference-time scaling through verifiers trained on agent trajectories
sampled from SWE-Gym. When combined with our fine-tuned SWE agents, we achieve
32.0% and 26.0% on SWE-Bench Verified and Lite, respectively, reflecting a new
state-of-the-art for open-weight SWE agents. To facilitate further research, we
publicly release SWE-Gym, models, and agent trajectories.Summary
AI-Generated Summary