SWE-Master: Het Vrijmaken van het Potentieel van Software Engineering Agents via Post-Training

Samenvatting

In dit technisch rapport presenteren wij SWE-Master, een open-source en volledig reproduceerbaar post-training raamwerk voor het bouwen van effectieve software engineering agents. SWE-Master verkent systematisch de complete ontwikkelpijplijn voor agents, inclusief de synthese van teacher-trajecten en datacuratie, long-horizon SFT (Supervised Fine-Tuning), RL (Reinforcement Learning) met feedback van echte uitvoering, en het ontwerp van het inference-raamwerk. Uitgaande van een open-source basismodel met beperkte initiële SWE-capaciteit, demonstreert SWE-Master hoe een systematische optimalisatiemethode sterke lange-termijn SWE-taakoplossende vermogens kan ontlokken. Wij evalueren SWE-Master op SWE-bench Verified, een standaard benchmark voor realistische software engineering taken. Onder identieke experimentele omstandigheden behaalt onze aanpak een oplossingspercentage van 61.4% met Qwen2.5-Coder-32B, wat aanzienlijk beter is dan bestaande open-source baseline-methoden. Door verder test-time scaling (TTS) te integreren met op LLM gebaseerde omgevingsfeedback, bereikt SWE-Master 70.8% bij TTS@8, wat een sterk prestatiepotentieel aantoont. SWE-Master biedt een praktische en transparante basis voor het bevorderen van reproduceerbaar onderzoek naar software engineering agents. De code is beschikbaar op https://github.com/RUCAIBox/SWE-Master.

English

In this technical report, we present SWE-Master, an open-source and fully reproducible post-training framework for building effective software engineering agents. SWE-Master systematically explores the complete agent development pipeline, including teacher-trajectory synthesis and data curation, long-horizon SFT, RL with real execution feedback, and inference framework design. Starting from an open-source base model with limited initial SWE capability, SWE-Master demonstrates how systematical optimization method can elicit strong long-horizon SWE task solving abilities. We evaluate SWE-Master on SWE-bench Verified, a standard benchmark for realistic software engineering tasks. Under identical experimental settings, our approach achieves a resolve rate of 61.4\% with Qwen2.5-Coder-32B, substantially outperforming existing open-source baselines. By further incorporating test-time scaling~(TTS) with LLM-based environment feedback, SWE-Master reaches 70.8\% at TTS@8, demonstrating a strong performance potential. SWE-Master provides a practical and transparent foundation for advancing reproducible research on software engineering agents. The code is available at https://github.com/RUCAIBox/SWE-Master.

SWE-Master: Het Vrijmaken van het Potentieel van Software Engineering Agents via Post-Training

SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training

Samenvatting

Support