Former des agents et des vérificateurs en génie logiciel avec SWE-Gym.
Training Software Engineering Agents and Verifiers with SWE-Gym
December 30, 2024
Auteurs: Jiayi Pan, Xingyao Wang, Graham Neubig, Navdeep Jaitly, Heng Ji, Alane Suhr, Yizhe Zhang
cs.AI
Résumé
Nous présentons SWE-Gym, le premier environnement pour l'entraînement d'agents d'ingénierie logicielle (SWE) du monde réel. SWE-Gym contient 2 438 instances de tâches Python du monde réel, chacune comprenant une base de code avec un environnement d'exécution exécutable, des tests unitaires et une tâche spécifiée en langage naturel. Nous utilisons SWE-Gym pour entraîner des agents SWE basés sur des modèles de langage, obtenant jusqu'à 19% de gains absolus dans le taux de résolution sur les ensembles de tests populaires SWE-Bench Verified et Lite. Nous expérimentons également avec la mise à l'échelle au moment de l'inférence à travers des vérificateurs entraînés sur les trajectoires des agents échantillonnées à partir de SWE-Gym. Lorsqu'ils sont combinés avec nos agents SWE affinés, nous atteignons 32,0% et 26,0% sur SWE-Bench Verified et Lite, respectivement, reflétant un nouvel état de l'art pour les agents SWE à poids ouvert. Pour faciliter davantage la recherche, nous publions publiquement SWE-Gym, les modèles et les trajectoires des agents.
English
We present SWE-Gym, the first environment for training real-world software
engineering (SWE) agents. SWE-Gym contains 2,438 real-world Python task
instances, each comprising a codebase with an executable runtime environment,
unit tests, and a task specified in natural language. We use SWE-Gym to train
language model based SWE agents , achieving up to 19% absolute gains in resolve
rate on the popular SWE-Bench Verified and Lite test sets. We also experiment
with inference-time scaling through verifiers trained on agent trajectories
sampled from SWE-Gym. When combined with our fine-tuned SWE agents, we achieve
32.0% and 26.0% on SWE-Bench Verified and Lite, respectively, reflecting a new
state-of-the-art for open-weight SWE agents. To facilitate further research, we
publicly release SWE-Gym, models, and agent trajectories.Summary
AI-Generated Summary