SWE-Factory: La tua fabbrica automatizzata per la creazione di dati di addestramento per la risoluzione di problemi e benchmark di valutazione
SWE-Factory: Your Automated Factory for Issue Resolution Training Data and Evaluation Benchmarks
June 12, 2025
Autori: Lianghong Guo, Yanlin Wang, Caihua Li, Pengyu Yang, Jiachi Chen, Wei Tao, Yingtian Zou, Duyu Tang, Zibin Zheng
cs.AI
Abstract
La costruzione di dataset su larga scala per il task di risoluzione delle issue di GitHub è cruciale sia per l'addestramento che per la valutazione delle capacità di ingegneria del software dei Large Language Models (LLMs). Tuttavia, il processo tradizionale per creare tali benchmark è notoriamente impegnativo e laborioso, in particolare nelle fasi di configurazione degli ambienti di valutazione, valutazione dei risultati dei test e validazione delle istanze del task. In questo articolo, proponiamo SWE-Factory, una pipeline automatizzata progettata per affrontare queste sfide. Per risolvere questi problemi, la nostra pipeline integra tre componenti automatizzati fondamentali. Innanzitutto, introduciamo SWE-Builder, un sistema multi-agente che automatizza la costruzione degli ambienti di valutazione, impiegando quattro agenti specializzati che operano in un ciclo collaborativo e iterativo e sfruttano un pool di memoria ambientale per migliorare l'efficienza. In secondo luogo, introduciamo un metodo di valutazione standardizzato basato sui codici di uscita, che elimina la necessità di scrivere manualmente parser personalizzati. Infine, automatizziamo il processo di validazione fail2pass utilizzando questi segnali affidabili di codice di uscita. Esperimenti su 671 issue in quattro linguaggi di programmazione dimostrano che la nostra pipeline può costruire efficacemente istanze di task valide; ad esempio, con GPT-4.1-mini, il nostro SWE-Builder costruisce 269 istanze valide a un costo di 0.045 per istanza, mentre con Gemini-2.5-flash raggiunge prestazioni comparabili al costo più basso di 0.024 per istanza. Dimostriamo inoltre che la nostra valutazione basata sui codici di uscita raggiunge un'accuratezza del 100% rispetto all'ispezione manuale, e la nostra validazione automatizzata fail2pass raggiunge una precisione di 0.92 e un recall di 1.00. Speriamo che la nostra pipeline automatizzata acceleri la raccolta di dataset su larga scala e di alta qualità per la risoluzione delle issue di GitHub, sia per l'addestramento che per la valutazione. Il nostro codice e i dataset sono disponibili all'indirizzo https://github.com/DeepSoftwareAnalytics/swe-factory.
English
Constructing large-scale datasets for the GitHub issue resolution task is
crucial for both training and evaluating the software engineering capabilities
of Large Language Models (LLMs). However, the traditional process for creating
such benchmarks is notoriously challenging and labor-intensive, particularly in
the stages of setting up evaluation environments, grading test outcomes, and
validating task instances. In this paper, we propose SWE-Factory, an automated
pipeline designed to address these challenges. To tackle these issues, our
pipeline integrates three core automated components. First, we introduce
SWE-Builder, a multi-agent system that automates evaluation environment
construction, which employs four specialized agents that work in a
collaborative, iterative loop and leverages an environment memory pool to
enhance efficiency. Second, we introduce a standardized, exit-code-based
grading method that eliminates the need for manually writing custom parsers.
Finally, we automate the fail2pass validation process using these reliable exit
code signals. Experiments on 671 issues across four programming languages show
that our pipeline can effectively construct valid task instances; for example,
with GPT-4.1-mini, our SWE-Builder constructs 269 valid instances at 0.045 per
instance, while with Gemini-2.5-flash, it achieves comparable performance at
the lowest cost of 0.024 per instance. We also demonstrate that our
exit-code-based grading achieves 100% accuracy compared to manual inspection,
and our automated fail2pass validation reaches a precision of 0.92 and a recall
of 1.00. We hope our automated pipeline will accelerate the collection of
large-scale, high-quality GitHub issue resolution datasets for both training
and evaluation. Our code and datasets are released at
https://github.com/DeepSoftwareAnalytics/swe-factory.