SWE-Factory : Votre usine automatisée pour la génération de données d'entraînement et de benchmarks d'évaluation en résolution de problèmes
SWE-Factory: Your Automated Factory for Issue Resolution Training Data and Evaluation Benchmarks
June 12, 2025
Auteurs: Lianghong Guo, Yanlin Wang, Caihua Li, Pengyu Yang, Jiachi Chen, Wei Tao, Yingtian Zou, Duyu Tang, Zibin Zheng
cs.AI
Résumé
La construction de jeux de données à grande échelle pour la tâche de résolution d'issues GitHub est essentielle à la fois pour l'entraînement et l'évaluation des capacités en génie logiciel des modèles de langage de grande taille (LLMs). Cependant, le processus traditionnel de création de tels benchmarks est notoirement difficile et laborieux, en particulier lors des étapes de configuration des environnements d'évaluation, de notation des résultats de test et de validation des instances de tâches. Dans cet article, nous proposons SWE-Factory, un pipeline automatisé conçu pour relever ces défis. Pour résoudre ces problèmes, notre pipeline intègre trois composants automatisés essentiels. Premièrement, nous introduisons SWE-Builder, un système multi-agents qui automatise la construction des environnements d'évaluation, en utilisant quatre agents spécialisés qui fonctionnent dans une boucle collaborative et itérative, et en exploitant un pool de mémoire d'environnement pour améliorer l'efficacité. Deuxièmement, nous introduisons une méthode de notation standardisée basée sur les codes de sortie, éliminant ainsi le besoin d'écrire manuellement des analyseurs personnalisés. Enfin, nous automatisons le processus de validation fail2pass en utilisant ces signaux de codes de sortie fiables. Des expériences sur 671 issues dans quatre langages de programmation montrent que notre pipeline peut construire efficacement des instances de tâches valides ; par exemple, avec GPT-4.1-mini, notre SWE-Builder construit 269 instances valides à un coût de 0,045 par instance, tandis qu'avec Gemini-2.5-flash, il atteint des performances comparables au coût le plus bas de 0,024 par instance. Nous démontrons également que notre méthode de notation basée sur les codes de sortie atteint une précision de 100 % par rapport à l'inspection manuelle, et que notre validation automatisée fail2pass atteint une précision de 0,92 et un rappel de 1,00. Nous espérons que notre pipeline automatisé accélérera la collecte de jeux de données à grande échelle et de haute qualité pour la résolution d'issues GitHub, à la fois pour l'entraînement et l'évaluation. Notre code et nos jeux de données sont disponibles à l'adresse https://github.com/DeepSoftwareAnalytics/swe-factory.
English
Constructing large-scale datasets for the GitHub issue resolution task is
crucial for both training and evaluating the software engineering capabilities
of Large Language Models (LLMs). However, the traditional process for creating
such benchmarks is notoriously challenging and labor-intensive, particularly in
the stages of setting up evaluation environments, grading test outcomes, and
validating task instances. In this paper, we propose SWE-Factory, an automated
pipeline designed to address these challenges. To tackle these issues, our
pipeline integrates three core automated components. First, we introduce
SWE-Builder, a multi-agent system that automates evaluation environment
construction, which employs four specialized agents that work in a
collaborative, iterative loop and leverages an environment memory pool to
enhance efficiency. Second, we introduce a standardized, exit-code-based
grading method that eliminates the need for manually writing custom parsers.
Finally, we automate the fail2pass validation process using these reliable exit
code signals. Experiments on 671 issues across four programming languages show
that our pipeline can effectively construct valid task instances; for example,
with GPT-4.1-mini, our SWE-Builder constructs 269 valid instances at 0.045 per
instance, while with Gemini-2.5-flash, it achieves comparable performance at
the lowest cost of 0.024 per instance. We also demonstrate that our
exit-code-based grading achieves 100% accuracy compared to manual inspection,
and our automated fail2pass validation reaches a precision of 0.92 and a recall
of 1.00. We hope our automated pipeline will accelerate the collection of
large-scale, high-quality GitHub issue resolution datasets for both training
and evaluation. Our code and datasets are released at
https://github.com/DeepSoftwareAnalytics/swe-factory.