Skywork-SWE: 대규모 언어 모델의 소프트웨어 엔지니어링을 위한 데이터 스케일링 법칙 공개
Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs
June 24, 2025
저자: Liang Zeng, Yongcong Li, Yuzhen Xiao, Changshi Li, Chris Yuhao Liu, Rui Yan, Tianwen Wei, Jujie He, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI
초록
소프트웨어 엔지니어링(SWE)은 최근 차세대 대형 언어 모델(LLM) 에이전트의 중요한 테스트베드로 부상하며, 두 가지 핵심 차원에서의 고유한 역량을 요구하고 있습니다: 지속적인 반복적 문제 해결(예: 50회 이상의 상호작용 라운드)과 장기 컨텍스트 의존성 해결(예: 32,000 토큰 이상). 그러나 SWE의 데이터 큐레이션 프로세스는 여전히 시간이 많이 소요되는 것으로 악명이 높습니다. 이는 코드 파일 필터링과 단위 테스트 실행 및 검증을 위한 전용 런타임 환경 설정에 수동 주석이 크게 의존하기 때문입니다. 결과적으로, 대부분의 기존 데이터셋은 수천 개의 GitHub 소스 인스턴스로만 제한됩니다. 이를 위해, 우리는 SWE 데이터셋의 규모와 다양성을 체계적으로 확장할 수 있는 점진적이고 자동화된 데이터 큐레이션 파이프라인을 제안합니다. 우리의 데이터셋은 2,531개의 독립적인 GitHub 저장소에서 추출한 10,169개의 실제 Python 작업 인스턴스로 구성되며, 각각은 자연어로 지정된 작업과 자동화된 단위 테스트 검증을 위한 전용 런타임 환경 이미지와 함께 제공됩니다. 우리는 제안한 SWE 데이터셋에서 8,000개 이상의 성공적으로 런타임 검증된 학습 궤적을 신중하게 큐레이션했습니다. 이러한 궤적을 사용하여 Skywork-SWE 모델을 미세 조정할 때, 데이터 크기가 증가함에 따라 LLM의 소프트웨어 엔지니어링 역량이 계속해서 향상되고 포화 현상이 나타나지 않는 놀라운 데이터 스케일링 현상을 발견했습니다. 특히, 우리의 Skywork-SWE 모델은 검증기나 다중 롤아웃을 사용하지 않고 SWE-bench Verified 벤치마크에서 38.0%의 pass@1 정확도를 달성하며, OpenHands 에이전트 프레임워크를 기반으로 구축된 Qwen2.5-Coder-32B 기반 LLM 중에서 새로운 최첨단(SOTA) 성능을 확립했습니다. 또한, 테스트 시간 스케일링 기술을 도입함으로써 성능은 47.0% 정확도로 더욱 향상되어, 32B 파라미터 미만 모델의 이전 SOTA 결과를 능가했습니다. 우리는 향후 연구를 가속화하기 위해 Skywork-SWE-32B 모델 체크포인트를 공개합니다.
English
Software engineering (SWE) has recently emerged as a crucial testbed for
next-generation LLM agents, demanding inherent capabilities in two critical
dimensions: sustained iterative problem-solving (e.g., >50 interaction rounds)
and long-context dependency resolution (e.g., >32k tokens). However, the data
curation process in SWE remains notoriously time-consuming, as it heavily
relies on manual annotation for code file filtering and the setup of dedicated
runtime environments to execute and validate unit tests. Consequently, most
existing datasets are limited to only a few thousand GitHub-sourced instances.
To this end, we propose an incremental, automated data-curation pipeline that
systematically scales both the volume and diversity of SWE datasets. Our
dataset comprises 10,169 real-world Python task instances from 2,531 distinct
GitHub repositories, each accompanied by a task specified in natural language
and a dedicated runtime-environment image for automated unit-test validation.
We have carefully curated over 8,000 successfully runtime-validated training
trajectories from our proposed SWE dataset. When fine-tuning the Skywork-SWE
model on these trajectories, we uncover a striking data scaling phenomenon: the
trained model's performance for software engineering capabilities in LLMs
continues to improve as the data size increases, showing no signs of
saturation. Notably, our Skywork-SWE model achieves 38.0% pass@1 accuracy on
the SWE-bench Verified benchmark without using verifiers or multiple rollouts,
establishing a new state-of-the-art (SOTA) among the Qwen2.5-Coder-32B-based
LLMs built on the OpenHands agent framework. Furthermore, with the
incorporation of test-time scaling techniques, the performance further improves
to 47.0% accuracy, surpassing the previous SOTA results for sub-32B parameter
models. We release the Skywork-SWE-32B model checkpoint to accelerate future
research.