ChatPaper.aiChatPaper

SWE-Factory: Ihre automatisierte Fabrik für Trainingsdaten zur Problembehebung und Evaluierungsbenchmarks

SWE-Factory: Your Automated Factory for Issue Resolution Training Data and Evaluation Benchmarks

June 12, 2025
Autoren: Lianghong Guo, Yanlin Wang, Caihua Li, Pengyu Yang, Jiachi Chen, Wei Tao, Yingtian Zou, Duyu Tang, Zibin Zheng
cs.AI

Zusammenfassung

Die Erstellung groß angelegter Datensätze für die Aufgabe der GitHub-Issue-Behebung ist entscheidend für das Training und die Bewertung der Softwareentwicklungsfähigkeiten von Large Language Models (LLMs). Der traditionelle Prozess zur Erstellung solcher Benchmarks ist jedoch bekanntlich herausfordernd und arbeitsintensiv, insbesondere in den Phasen der Einrichtung von Evaluierungsumgebungen, der Bewertung von Testergebnissen und der Validierung von Aufgabeninstanzen. In diesem Artikel stellen wir SWE-Factory vor, eine automatisierte Pipeline, die entwickelt wurde, um diese Herausforderungen zu bewältigen. Um diese Probleme anzugehen, integriert unsere Pipeline drei Kernkomponenten der Automatisierung. Zunächst führen wir SWE-Builder ein, ein Multi-Agenten-System, das die Konstruktion von Evaluierungsumgebungen automatisiert. Es verwendet vier spezialisierte Agenten, die in einer kollaborativen, iterativen Schleife arbeiten und einen Umgebungsspeicherpool nutzen, um die Effizienz zu steigern. Zweitens führen wir eine standardisierte, exitcode-basierte Bewertungsmethode ein, die den manuellen Schreibaufwand für benutzerdefinierte Parser überflüssig macht. Schließlich automatisieren wir den Fail2Pass-Validierungsprozess mithilfe dieser zuverlässigen Exitcode-Signale. Experimente mit 671 Issues in vier Programmiersprachen zeigen, dass unsere Pipeline effektiv gültige Aufgabeninstanzen konstruieren kann; zum Beispiel konstruiert unser SWE-Builder mit GPT-4.1-mini 269 gültige Instanzen zu einem Preis von 0,045 pro Instanz, während er mit Gemini-2.5-flash eine vergleichbare Leistung zum niedrigsten Preis von 0,024 pro Instanz erzielt. Wir zeigen auch, dass unsere exitcode-basierte Bewertung im Vergleich zur manuellen Überprüfung eine Genauigkeit von 100 % erreicht und unsere automatisierte Fail2Pass-Validierung eine Präzision von 0,92 und einen Recall von 1,00 erzielt. Wir hoffen, dass unsere automatisierte Pipeline die Sammlung groß angelegter, hochwertiger GitHub-Issue-Behebungsdatensätze für Training und Bewertung beschleunigen wird. Unser Code und unsere Datensätze sind unter https://github.com/DeepSoftwareAnalytics/swe-factory veröffentlicht.
English
Constructing large-scale datasets for the GitHub issue resolution task is crucial for both training and evaluating the software engineering capabilities of Large Language Models (LLMs). However, the traditional process for creating such benchmarks is notoriously challenging and labor-intensive, particularly in the stages of setting up evaluation environments, grading test outcomes, and validating task instances. In this paper, we propose SWE-Factory, an automated pipeline designed to address these challenges. To tackle these issues, our pipeline integrates three core automated components. First, we introduce SWE-Builder, a multi-agent system that automates evaluation environment construction, which employs four specialized agents that work in a collaborative, iterative loop and leverages an environment memory pool to enhance efficiency. Second, we introduce a standardized, exit-code-based grading method that eliminates the need for manually writing custom parsers. Finally, we automate the fail2pass validation process using these reliable exit code signals. Experiments on 671 issues across four programming languages show that our pipeline can effectively construct valid task instances; for example, with GPT-4.1-mini, our SWE-Builder constructs 269 valid instances at 0.045 per instance, while with Gemini-2.5-flash, it achieves comparable performance at the lowest cost of 0.024 per instance. We also demonstrate that our exit-code-based grading achieves 100% accuracy compared to manual inspection, and our automated fail2pass validation reaches a precision of 0.92 and a recall of 1.00. We hope our automated pipeline will accelerate the collection of large-scale, high-quality GitHub issue resolution datasets for both training and evaluation. Our code and datasets are released at https://github.com/DeepSoftwareAnalytics/swe-factory.
PDF422June 13, 2025