ChatPaper.aiChatPaper

SWE-Factory: Tu Fábrica Automatizada para la Generación de Datos de Entrenamiento en Resolución de Problemas y Evaluación de Puntos de Referencia

SWE-Factory: Your Automated Factory for Issue Resolution Training Data and Evaluation Benchmarks

June 12, 2025
Autores: Lianghong Guo, Yanlin Wang, Caihua Li, Pengyu Yang, Jiachi Chen, Wei Tao, Yingtian Zou, Duyu Tang, Zibin Zheng
cs.AI

Resumen

La construcción de conjuntos de datos a gran escala para la tarea de resolución de problemas en GitHub es crucial tanto para el entrenamiento como para la evaluación de las capacidades de ingeniería de software de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). Sin embargo, el proceso tradicional para crear estos puntos de referencia es notoriamente desafiante y laborioso, particularmente en las etapas de configuración de entornos de evaluación, calificación de resultados de pruebas y validación de instancias de tareas. En este artículo, proponemos SWE-Factory, una canalización automatizada diseñada para abordar estos desafíos. Para resolver estos problemas, nuestra canalización integra tres componentes automatizados principales. Primero, presentamos SWE-Builder, un sistema multiagente que automatiza la construcción de entornos de evaluación, el cual emplea cuatro agentes especializados que trabajan en un ciclo colaborativo e iterativo y aprovecha un grupo de memoria de entorno para mejorar la eficiencia. Segundo, introducimos un método de calificación estandarizado basado en códigos de salida que elimina la necesidad de escribir manualmente analizadores personalizados. Finalmente, automatizamos el proceso de validación fail2pass utilizando estas señales confiables de códigos de salida. Los experimentos en 671 problemas en cuatro lenguajes de programación muestran que nuestra canalización puede construir efectivamente instancias de tareas válidas; por ejemplo, con GPT-4.1-mini, nuestro SWE-Builder construye 269 instancias válidas a un costo de 0.045 por instancia, mientras que con Gemini-2.5-flash, logra un rendimiento comparable al menor costo de 0.024 por instancia. También demostramos que nuestra calificación basada en códigos de salida alcanza un 100% de precisión en comparación con la inspección manual, y nuestra validación automatizada fail2pass alcanza una precisión de 0.92 y un recall de 1.00. Esperamos que nuestra canalización automatizada acelere la recopilación de conjuntos de datos de resolución de problemas en GitHub a gran escala y de alta calidad, tanto para entrenamiento como para evaluación. Nuestro código y conjuntos de datos están disponibles en https://github.com/DeepSoftwareAnalytics/swe-factory.
English
Constructing large-scale datasets for the GitHub issue resolution task is crucial for both training and evaluating the software engineering capabilities of Large Language Models (LLMs). However, the traditional process for creating such benchmarks is notoriously challenging and labor-intensive, particularly in the stages of setting up evaluation environments, grading test outcomes, and validating task instances. In this paper, we propose SWE-Factory, an automated pipeline designed to address these challenges. To tackle these issues, our pipeline integrates three core automated components. First, we introduce SWE-Builder, a multi-agent system that automates evaluation environment construction, which employs four specialized agents that work in a collaborative, iterative loop and leverages an environment memory pool to enhance efficiency. Second, we introduce a standardized, exit-code-based grading method that eliminates the need for manually writing custom parsers. Finally, we automate the fail2pass validation process using these reliable exit code signals. Experiments on 671 issues across four programming languages show that our pipeline can effectively construct valid task instances; for example, with GPT-4.1-mini, our SWE-Builder constructs 269 valid instances at 0.045 per instance, while with Gemini-2.5-flash, it achieves comparable performance at the lowest cost of 0.024 per instance. We also demonstrate that our exit-code-based grading achieves 100% accuracy compared to manual inspection, and our automated fail2pass validation reaches a precision of 0.92 and a recall of 1.00. We hope our automated pipeline will accelerate the collection of large-scale, high-quality GitHub issue resolution datasets for both training and evaluation. Our code and datasets are released at https://github.com/DeepSoftwareAnalytics/swe-factory.
PDF422June 13, 2025