SWE-Master: Das Potenzial von Software Engineering Agents durch Post-Training freisetzen

papers.abstract

In diesem technischen Bericht stellen wir SWE-Master vor, ein quelloffenes und vollständig reproduzierbares Post-Training-Framework zur Entwicklung effektiver Software Engineering Agents. SWE-Master untersucht systematisch die gesamte Agent-Entwicklungspipeline, einschließlich der Synthese von Lehrer-Trajektorien und Datenkuratierung, langhorizontlichem SFT (Supervised Fine-Tuning), Reinforcement Learning mit realer Ausführungsrückmeldung und dem Design von Inferenz-Frameworks. Ausgehend von einem quelloffenen Basismodell mit begrenzten anfänglichen SWE-Fähigkeiten demonstriert SWE-Master, wie systematische Optimierungsmethoden starke Fähigkeiten zur Lösung langhorizontlicher SWE-Aufgaben hervorbringen können. Wir evaluieren SWE-Master auf SWE-bench Verified, einem Standard-Benchmark für realistische Software-Engineering-Aufgaben. Unter identischen experimentellen Bedingungen erreicht unser Ansatz mit Qwen2.5-Coder-32B eine Lösungsrate von 61,4 % und übertrifft damit existierende quelloffene Baseline-Modelle deutlich. Durch die weitere Integration von Test-Time Scaling (TTS) mit LLM-basierter Umgebungsrückmeldung erreicht SWE-Master 70,8 % bei TTS@8, was ein starkes Leistungspotenzial demonstriert. SWE-Master bietet eine praktische und transparente Grundlage für die Förderung reproduzierbarer Forschung zu Software Engineering Agents. Der Code ist verfügbar unter https://github.com/RUCAIBox/SWE-Master.

English

In this technical report, we present SWE-Master, an open-source and fully reproducible post-training framework for building effective software engineering agents. SWE-Master systematically explores the complete agent development pipeline, including teacher-trajectory synthesis and data curation, long-horizon SFT, RL with real execution feedback, and inference framework design. Starting from an open-source base model with limited initial SWE capability, SWE-Master demonstrates how systematical optimization method can elicit strong long-horizon SWE task solving abilities. We evaluate SWE-Master on SWE-bench Verified, a standard benchmark for realistic software engineering tasks. Under identical experimental settings, our approach achieves a resolve rate of 61.4\% with Qwen2.5-Coder-32B, substantially outperforming existing open-source baselines. By further incorporating test-time scaling~(TTS) with LLM-based environment feedback, SWE-Master reaches 70.8\% at TTS@8, demonstrating a strong performance potential. SWE-Master provides a practical and transparent foundation for advancing reproducible research on software engineering agents. The code is available at https://github.com/RUCAIBox/SWE-Master.

SWE-Master: Das Potenzial von Software Engineering Agents durch Post-Training freisetzen

SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training

papers.abstract

Support