SWE-Master: Liberando o Potencial de Agentes de Engenharia de Software via Pós-treinamento

Resumo

Neste relatório técnico, apresentamos o SWE-Master, uma estrutura de pós-treinamento de código aberto e totalmente reproduzível para a construção de agentes eficazes de engenharia de software. O SWE-Master explora sistematicamente o pipeline completo de desenvolvimento de agentes, incluindo a síntese de trajetórias de ensino e a curadoria de dados, SFT de longo horizonte, RL com feedback de execução real e o design da estrutura de inferência. Partindo de um modelo base de código aberto com capacidade inicial limitada em ES, o SWE-Master demonstra como um método de otimização sistemática pode eliciar fortes habilidades de resolução de tarefas de ES de longo horizonte. Avaliamos o SWE-Master no SWE-bench Verified, um benchmark padrão para tarefas realistas de engenharia de software. Sob configurações experimentais idênticas, nossa abordagem atinge uma taxa de resolução de 61,4% com o Qwen2.5-Coder-32B, superando substancialmente as linhas de base de código aberto existentes. Ao incorporar ainda mais a escala em tempo de teste (TTS) com feedback do ambiente baseado em LLM, o SWE-Master atinge 70,8% em TTS@8, demonstrando um forte potencial de desempenho. O SWE-Master fornece uma base prática e transparente para avançar a pesquisa reproduzível em agentes de engenharia de software. O código está disponível em https://github.com/RUCAIBox/SWE-Master.

English

In this technical report, we present SWE-Master, an open-source and fully reproducible post-training framework for building effective software engineering agents. SWE-Master systematically explores the complete agent development pipeline, including teacher-trajectory synthesis and data curation, long-horizon SFT, RL with real execution feedback, and inference framework design. Starting from an open-source base model with limited initial SWE capability, SWE-Master demonstrates how systematical optimization method can elicit strong long-horizon SWE task solving abilities. We evaluate SWE-Master on SWE-bench Verified, a standard benchmark for realistic software engineering tasks. Under identical experimental settings, our approach achieves a resolve rate of 61.4\% with Qwen2.5-Coder-32B, substantially outperforming existing open-source baselines. By further incorporating test-time scaling~(TTS) with LLM-based environment feedback, SWE-Master reaches 70.8\% at TTS@8, demonstrating a strong performance potential. SWE-Master provides a practical and transparent foundation for advancing reproducible research on software engineering agents. The code is available at https://github.com/RUCAIBox/SWE-Master.