SWE-Factory: Ihre automatisierte Fabrik für Trainingsdaten zur Problembehebung und Evaluierungsbenchmarks
SWE-Factory: Your Automated Factory for Issue Resolution Training Data and Evaluation Benchmarks
June 12, 2025
Autoren: Lianghong Guo, Yanlin Wang, Caihua Li, Pengyu Yang, Jiachi Chen, Wei Tao, Yingtian Zou, Duyu Tang, Zibin Zheng
cs.AI
Zusammenfassung
Die Erstellung groß angelegter Datensätze für die Aufgabe der GitHub-Issue-Behebung ist entscheidend für das Training und die Bewertung der Softwareentwicklungsfähigkeiten von Large Language Models (LLMs). Der traditionelle Prozess zur Erstellung solcher Benchmarks ist jedoch bekanntlich herausfordernd und arbeitsintensiv, insbesondere in den Phasen der Einrichtung von Evaluierungsumgebungen, der Bewertung von Testergebnissen und der Validierung von Aufgabeninstanzen. In diesem Artikel stellen wir SWE-Factory vor, eine automatisierte Pipeline, die entwickelt wurde, um diese Herausforderungen zu bewältigen. Um diese Probleme anzugehen, integriert unsere Pipeline drei Kernkomponenten der Automatisierung. Zunächst führen wir SWE-Builder ein, ein Multi-Agenten-System, das die Konstruktion von Evaluierungsumgebungen automatisiert. Es verwendet vier spezialisierte Agenten, die in einer kollaborativen, iterativen Schleife arbeiten und einen Umgebungsspeicherpool nutzen, um die Effizienz zu steigern. Zweitens führen wir eine standardisierte, exitcode-basierte Bewertungsmethode ein, die den manuellen Schreibaufwand für benutzerdefinierte Parser überflüssig macht. Schließlich automatisieren wir den Fail2Pass-Validierungsprozess mithilfe dieser zuverlässigen Exitcode-Signale. Experimente mit 671 Issues in vier Programmiersprachen zeigen, dass unsere Pipeline effektiv gültige Aufgabeninstanzen konstruieren kann; zum Beispiel konstruiert unser SWE-Builder mit GPT-4.1-mini 269 gültige Instanzen zu einem Preis von 0,045 pro Instanz, während er mit Gemini-2.5-flash eine vergleichbare Leistung zum niedrigsten Preis von 0,024 pro Instanz erzielt. Wir zeigen auch, dass unsere exitcode-basierte Bewertung im Vergleich zur manuellen Überprüfung eine Genauigkeit von 100 % erreicht und unsere automatisierte Fail2Pass-Validierung eine Präzision von 0,92 und einen Recall von 1,00 erzielt. Wir hoffen, dass unsere automatisierte Pipeline die Sammlung groß angelegter, hochwertiger GitHub-Issue-Behebungsdatensätze für Training und Bewertung beschleunigen wird. Unser Code und unsere Datensätze sind unter https://github.com/DeepSoftwareAnalytics/swe-factory veröffentlicht.
English
Constructing large-scale datasets for the GitHub issue resolution task is
crucial for both training and evaluating the software engineering capabilities
of Large Language Models (LLMs). However, the traditional process for creating
such benchmarks is notoriously challenging and labor-intensive, particularly in
the stages of setting up evaluation environments, grading test outcomes, and
validating task instances. In this paper, we propose SWE-Factory, an automated
pipeline designed to address these challenges. To tackle these issues, our
pipeline integrates three core automated components. First, we introduce
SWE-Builder, a multi-agent system that automates evaluation environment
construction, which employs four specialized agents that work in a
collaborative, iterative loop and leverages an environment memory pool to
enhance efficiency. Second, we introduce a standardized, exit-code-based
grading method that eliminates the need for manually writing custom parsers.
Finally, we automate the fail2pass validation process using these reliable exit
code signals. Experiments on 671 issues across four programming languages show
that our pipeline can effectively construct valid task instances; for example,
with GPT-4.1-mini, our SWE-Builder constructs 269 valid instances at 0.045 per
instance, while with Gemini-2.5-flash, it achieves comparable performance at
the lowest cost of 0.024 per instance. We also demonstrate that our
exit-code-based grading achieves 100% accuracy compared to manual inspection,
and our automated fail2pass validation reaches a precision of 0.92 and a recall
of 1.00. We hope our automated pipeline will accelerate the collection of
large-scale, high-quality GitHub issue resolution datasets for both training
and evaluation. Our code and datasets are released at
https://github.com/DeepSoftwareAnalytics/swe-factory.