ChatPaper.aiChatPaper

SWE-Lego: 소프트웨어 이슈 해결을 위한 지도 미세 조정의 한계 돌파

SWE-Lego: Pushing the Limits of Supervised Fine-tuning for Software Issue Resolving

January 4, 2026
저자: Chaofan Tao, Jierun Chen, Yuxin Jiang, Kaiqi Kou, Shaowei Wang, Ruoyu Wang, Xiaohui Li, Sidi Yang, Yiming Du, Jianbo Dai, Zhiming Mao, Xinyu Wang, Lifeng Shang, Haoli Bai
cs.AI

초록

본 논문에서는 소프트웨어 엔지니어링(SWE) 이슈 해결에서 최첨단 성능을 달성하기 위해 설계된 지도 미세 조정(SFT) 방법론인 SWE-Lego를 제안한다. 복잡한 훈련 패러다임(예: 중간 훈련, SFT, 강화 학습 및 이들의 조합)에 의존하는 기존 방법론과 대조적으로, 본 연구는 SWE 작업에 대해 경량의 SFT-Only 접근법의 한계를 극복하는 방법을 탐구한다. SWE-Lego는 세 가지 핵심 구성 요소로 이루어지며, 주요 결과는 다음과 같이 요약된다. 1) SWE-Lego 데이터셋: 32k개의 고품질 작업 인스턴스와 18k개의 검증된 실행 궤적을 포함하며, 실제 데이터와 합성 데이터를 결합하여 질적, 양적 측면을 상호 보완한다. 2) 오류 마스킹 및 난이도 기반 커리큘럼을 적용한 개선된 SFT 절차: 이는 행동의 질과 전반적 성능을 현저히 향상시킨다. 실험 결과, 이 두 구성 요소만으로도 SFT는 SWE-Lego 모델이 유사 규모의 오픈소스 모델 중 SWE-bench Verified에서 최첨단 성능에 도달하게 함을 보여준다. SWE-Lego-Qwen3-8B는 42.2%, SWE-Lego-Qwen3-32B는 52.6%를 기록했다. 3) SFT 기반 위에 구축된 테스트 타임 스케일링(TTS)을 추가로 평가 및 개선한다: 잘 훈련된 검증기를 기반으로 SWE-Lego 모델의 성능은 크게 향상될 수 있으며, 예를 들어 8B 및 32B 모델에 대해 TTS@16 설정 시 각각 42.2% → 49.6%, 52.6% → 58.8%로 성능이 향상된다.
English
We present SWE-Lego, a supervised fine-tuning (SFT) recipe designed to achieve state-ofthe-art performance in software engineering (SWE) issue resolving. In contrast to prevalent methods that rely on complex training paradigms (e.g., mid-training, SFT, reinforcement learning, and their combinations), we explore how to push the limits of a lightweight SFT-only approach for SWE tasks. SWE-Lego comprises three core building blocks, with key findings summarized as follows: 1) the SWE-Lego dataset, a collection of 32k highquality task instances and 18k validated trajectories, combining real and synthetic data to complement each other in both quality and quantity; 2) a refined SFT procedure with error masking and a difficulty-based curriculum, which demonstrably improves action quality and overall performance. Empirical results show that with these two building bricks alone,the SFT can push SWE-Lego models to state-of-the-art performance among open-source models of comparable size on SWE-bench Verified: SWE-Lego-Qwen3-8B reaches 42.2%, and SWE-Lego-Qwen3-32B attains 52.6%. 3) We further evaluate and improve test-time scaling (TTS) built upon the SFT foundation. Based on a well-trained verifier, SWE-Lego models can be significantly boosted--for example, 42.2% to 49.6% and 52.6% to 58.8% under TTS@16 for the 8B and 32B models, respectively.
PDF22January 7, 2026