ChatPaper.aiChatPaper

SWE-Master: 사후 훈련을 통한 소프트웨어 엔지니어링 에이전트의 잠재력 극대화

SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training

February 3, 2026
저자: Huatong Song, Lisheng Huang, Shuang Sun, Jinhao Jiang, Ran Le, Daixuan Cheng, Guoxin Chen, Yiwen Hu, Zongchao Chen, Wayne Xin Zhao, Yang Song, Tao Zhang, Ji-Rong Wen
cs.AI

초록

본 기술 보고서에서는 효과적인 소프트웨어 엔지니어링 에이전트 구축을 위한 오픈소스이자 완전히 재현 가능한 사후 학습(post-training) 프레임워크인 SWE-Master를 소개한다. SWE-Master는 교사 궤적 합성(teacher-trajectory synthesis) 및 데이터 큐레이션, 장기계획 지도 미세조정(long-horizon SFT), 실제 실행 피드백을 활용한 강화학습(RL), 추론 프레임워크 설계를 포함한 완전한 에이전트 개발 파이프라인을 체계적으로 탐구한다. 초기 SWE 능력이 제한된 오픈소스 기반 모델에서 출발하여, SWE-Master는 체계적인 최적화 방법이 어떻게 강력한 장기계획 SWE 과제 해결 능력을 이끌어낼 수 있는지를 보여준다. 우리는 SWE-Master를 현실적인 소프트웨어 엔지니어링 과제를 위한 표준 벤치마크인 SWE-bench Verified에서 평가하였다. 동일한 실험 설정 하에서, 우리의 접근 방식은 Qwen2.5-Coder-32B를 사용하여 61.4%의 해결률(resolve rate)을 달성하여 기존 오픈소스 기준선을 크게 능가한다. LLM 기반 환경 피드백을 통한 테스트 시간 스케일링(Test-Time Scaling, TTS)을 추가로 결합하면, SWE-Master는 TTS@8에서 70.8%에 도달하여 강력한 성능 잠재력을 입증한다. SWE-Master는 소프트웨어 엔지니어링 에이전트에 대한 재현 가능한 연구를 발전시키기 위한 실용적이고 투명한 기반을 제공한다. 코드는 https://github.com/RUCAIBox/SWE-Master에서 이용할 수 있다.
English
In this technical report, we present SWE-Master, an open-source and fully reproducible post-training framework for building effective software engineering agents. SWE-Master systematically explores the complete agent development pipeline, including teacher-trajectory synthesis and data curation, long-horizon SFT, RL with real execution feedback, and inference framework design. Starting from an open-source base model with limited initial SWE capability, SWE-Master demonstrates how systematical optimization method can elicit strong long-horizon SWE task solving abilities. We evaluate SWE-Master on SWE-bench Verified, a standard benchmark for realistic software engineering tasks. Under identical experimental settings, our approach achieves a resolve rate of 61.4\% with Qwen2.5-Coder-32B, substantially outperforming existing open-source baselines. By further incorporating test-time scaling~(TTS) with LLM-based environment feedback, SWE-Master reaches 70.8\% at TTS@8, demonstrating a strong performance potential. SWE-Master provides a practical and transparent foundation for advancing reproducible research on software engineering agents. The code is available at https://github.com/RUCAIBox/SWE-Master.
PDF271February 5, 2026