SWE-Master: Раскрытие потенциала агентов программной инженерии с помощью пост-обучения

Аннотация

В данном техническом отчете представлена SWE-Master — открытая и полностью воспроизводимая платформа пост-обучения для создания эффективных агентов в области программной инженерии. SWE-Master системно исследует полный конвейер разработки агентов, включая синтез учительских траекторий и курацию данных, обучение с учителем на длинных горизонтах, обучение с подкреплением с обратной связью от реального выполнения, а также проектирование инфраструктуры вывода. Начиная с базовой открытой модели с ограниченными исходными возможностями в области SWE, SWE-Master демонстрирует, как системная оптимизация позволяет раскрыть мощные способности к решению долгосрочных задач программной инженерии. Мы оцениваем SWE-Master на SWE-bench Verified — стандартном бенчмарке для реалистичных задач программной инженерии. В идентичных экспериментальных условиях наш подход достигает показателя разрешения 61,4% с моделью Qwen2.5-Coder-32B, существенно превосходя существующие открытые базовые методы. При дальнейшем включении масштабирования на этапе тестирования с обратной связью от среды на основе LLM, SWE-Master достигает 70,8% при TTS@8, демонстрируя высокий потенциал производительности. SWE-Master предоставляет практичную и прозрачную основу для продвижения воспроизводимых исследований агентов программной инженерии. Код доступен по адресу https://github.com/RUCAIBox/SWE-Master.

English

In this technical report, we present SWE-Master, an open-source and fully reproducible post-training framework for building effective software engineering agents. SWE-Master systematically explores the complete agent development pipeline, including teacher-trajectory synthesis and data curation, long-horizon SFT, RL with real execution feedback, and inference framework design. Starting from an open-source base model with limited initial SWE capability, SWE-Master demonstrates how systematical optimization method can elicit strong long-horizon SWE task solving abilities. We evaluate SWE-Master on SWE-bench Verified, a standard benchmark for realistic software engineering tasks. Under identical experimental settings, our approach achieves a resolve rate of 61.4\% with Qwen2.5-Coder-32B, substantially outperforming existing open-source baselines. By further incorporating test-time scaling~(TTS) with LLM-based environment feedback, SWE-Master reaches 70.8\% at TTS@8, demonstrating a strong performance potential. SWE-Master provides a practical and transparent foundation for advancing reproducible research on software engineering agents. The code is available at https://github.com/RUCAIBox/SWE-Master.

SWE-Master: Раскрытие потенциала агентов программной инженерии с помощью пост-обучения

SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training

Аннотация

Support