SWE-Factory: Uw geautomatiseerde fabriek voor trainingsdata voor probleemoplossing en evaluatiebenchmarks
SWE-Factory: Your Automated Factory for Issue Resolution Training Data and Evaluation Benchmarks
June 12, 2025
Auteurs: Lianghong Guo, Yanlin Wang, Caihua Li, Pengyu Yang, Jiachi Chen, Wei Tao, Yingtian Zou, Duyu Tang, Zibin Zheng
cs.AI
Samenvatting
Het opbouwen van grootschalige datasets voor de GitHub-issue-oplossingstaak is cruciaal voor zowel het trainen als het evalueren van de software engineering-capaciteiten van Large Language Models (LLMs). Het traditionele proces voor het creëren van dergelijke benchmarks is echter berucht uitdagend en arbeidsintensief, met name in de fasen van het opzetten van evaluatieomgevingen, het beoordelen van testresultaten en het valideren van taakinstanties. In dit artikel stellen we SWE-Factory voor, een geautomatiseerde pijplijn die ontworpen is om deze uitdagingen aan te pakken. Om deze problemen te tackelen, integreert onze pijplijn drie kern geautomatiseerde componenten. Ten eerste introduceren we SWE-Builder, een multi-agent systeem dat de constructie van evaluatieomgevingen automatiseert, waarbij vier gespecialiseerde agenten in een collaboratieve, iteratieve lus werken en gebruikmaken van een omgevingsgeheugenpool om de efficiëntie te verbeteren. Ten tweede introduceren we een gestandaardiseerde, exit-code-gebaseerde beoordelingsmethode die de noodzaak voor het handmatig schrijven van aangepaste parsers elimineert. Tot slot automatiseren we het fail2pass validatieproces met behulp van deze betrouwbare exit-code-signalen. Experimenten op 671 issues in vier programmeertalen tonen aan dat onze pijplijn effectief geldige taakinstanties kan construeren; bijvoorbeeld, met GPT-4.1-mini construeert onze SWE-Builder 269 geldige instanties tegen 0.045 per instantie, terwijl met Gemini-2.5-flash vergelijkbare prestaties worden behaald tegen de laagste kosten van 0.024 per instantie. We laten ook zien dat onze exit-code-gebaseerde beoordeling een nauwkeurigheid van 100% bereikt in vergelijking met handmatige inspectie, en dat onze geautomatiseerde fail2pass validatie een precisie van 0.92 en een recall van 1.00 bereikt. We hopen dat onze geautomatiseerde pijplijn de verzameling van grootschalige, hoogwaardige GitHub-issue-oplossingsdatasets voor zowel training als evaluatie zal versnellen. Onze code en datasets zijn vrijgegeven op https://github.com/DeepSoftwareAnalytics/swe-factory.
English
Constructing large-scale datasets for the GitHub issue resolution task is
crucial for both training and evaluating the software engineering capabilities
of Large Language Models (LLMs). However, the traditional process for creating
such benchmarks is notoriously challenging and labor-intensive, particularly in
the stages of setting up evaluation environments, grading test outcomes, and
validating task instances. In this paper, we propose SWE-Factory, an automated
pipeline designed to address these challenges. To tackle these issues, our
pipeline integrates three core automated components. First, we introduce
SWE-Builder, a multi-agent system that automates evaluation environment
construction, which employs four specialized agents that work in a
collaborative, iterative loop and leverages an environment memory pool to
enhance efficiency. Second, we introduce a standardized, exit-code-based
grading method that eliminates the need for manually writing custom parsers.
Finally, we automate the fail2pass validation process using these reliable exit
code signals. Experiments on 671 issues across four programming languages show
that our pipeline can effectively construct valid task instances; for example,
with GPT-4.1-mini, our SWE-Builder constructs 269 valid instances at 0.045 per
instance, while with Gemini-2.5-flash, it achieves comparable performance at
the lowest cost of 0.024 per instance. We also demonstrate that our
exit-code-based grading achieves 100% accuracy compared to manual inspection,
and our automated fail2pass validation reaches a precision of 0.92 and a recall
of 1.00. We hope our automated pipeline will accelerate the collection of
large-scale, high-quality GitHub issue resolution datasets for both training
and evaluation. Our code and datasets are released at
https://github.com/DeepSoftwareAnalytics/swe-factory.