SWE-Factory: Ваша автоматизированная фабрика для создания обучающих данных и эталонных тестов для решения задач
SWE-Factory: Your Automated Factory for Issue Resolution Training Data and Evaluation Benchmarks
June 12, 2025
Авторы: Lianghong Guo, Yanlin Wang, Caihua Li, Pengyu Yang, Jiachi Chen, Wei Tao, Yingtian Zou, Duyu Tang, Zibin Zheng
cs.AI
Аннотация
Создание крупномасштабных наборов данных для задачи разрешения проблем на GitHub имеет решающее значение как для обучения, так и для оценки возможностей крупных языковых моделей (LLM) в области программной инженерии. Однако традиционный процесс создания таких эталонных тестов известен своей сложностью и трудоемкостью, особенно на этапах настройки сред оценки, проверки результатов тестов и валидации экземпляров задач. В данной статье мы предлагаем SWE-Factory — автоматизированный конвейер, разработанный для решения этих проблем. Наш конвейер интегрирует три ключевых автоматизированных компонента. Во-первых, мы представляем SWE-Builder — мультиагентную систему, которая автоматизирует создание среды оценки. Она использует четыре специализированных агента, работающих в совместном итеративном цикле, и применяет пул памяти среды для повышения эффективности. Во-вторых, мы вводим стандартизированный метод оценки на основе кодов завершения, который устраняет необходимость ручного написания пользовательских парсеров. Наконец, мы автоматизируем процесс валидации fail2pass, используя эти надежные сигналы кодов завершения. Эксперименты на 671 проблеме для четырех языков программирования показывают, что наш конвейер может эффективно создавать валидные экземпляры задач; например, с использованием GPT-4.1-mini наш SWE-Builder создает 269 валидных экземпляров при стоимости 0,045 за экземпляр, а с Gemini-2.5-flash достигает сопоставимой производительности при минимальной стоимости 0,024 за экземпляр. Мы также демонстрируем, что наша оценка на основе кодов завершения достигает 100% точности по сравнению с ручной проверкой, а автоматизированная валидация fail2pass достигает точности 0,92 и полноты 1,00. Мы надеемся, что наш автоматизированный конвейер ускорит сбор крупномасштабных, высококачественных наборов данных для разрешения проблем на GitHub как для обучения, так и для оценки. Наш код и наборы данных доступны по адресу https://github.com/DeepSoftwareAnalytics/swe-factory.
English
Constructing large-scale datasets for the GitHub issue resolution task is
crucial for both training and evaluating the software engineering capabilities
of Large Language Models (LLMs). However, the traditional process for creating
such benchmarks is notoriously challenging and labor-intensive, particularly in
the stages of setting up evaluation environments, grading test outcomes, and
validating task instances. In this paper, we propose SWE-Factory, an automated
pipeline designed to address these challenges. To tackle these issues, our
pipeline integrates three core automated components. First, we introduce
SWE-Builder, a multi-agent system that automates evaluation environment
construction, which employs four specialized agents that work in a
collaborative, iterative loop and leverages an environment memory pool to
enhance efficiency. Second, we introduce a standardized, exit-code-based
grading method that eliminates the need for manually writing custom parsers.
Finally, we automate the fail2pass validation process using these reliable exit
code signals. Experiments on 671 issues across four programming languages show
that our pipeline can effectively construct valid task instances; for example,
with GPT-4.1-mini, our SWE-Builder constructs 269 valid instances at 0.045 per
instance, while with Gemini-2.5-flash, it achieves comparable performance at
the lowest cost of 0.024 per instance. We also demonstrate that our
exit-code-based grading achieves 100% accuracy compared to manual inspection,
and our automated fail2pass validation reaches a precision of 0.92 and a recall
of 1.00. We hope our automated pipeline will accelerate the collection of
large-scale, high-quality GitHub issue resolution datasets for both training
and evaluation. Our code and datasets are released at
https://github.com/DeepSoftwareAnalytics/swe-factory.