ChatPaper.aiChatPaper

SWE-smith: 소프트웨어 엔지니어링 에이전트를 위한 데이터 스케일링

SWE-smith: Scaling Data for Software Engineering Agents

April 30, 2025
저자: John Yang, Kilian Leret, Carlos E. Jimenez, Alexander Wettig, Kabir Khandpur, Yanzhe Zhang, Binyuan Hui, Ofir Press, Ludwig Schmidt, Diyi Yang
cs.AI

초록

소프트웨어 엔지니어링을 위한 언어 모델(Language Models, LMs)의 최근 발전에도 불구하고, 훈련 데이터 수집은 여전히 큰 문제로 남아 있습니다. 기존 데이터셋은 규모가 작아 최대 수천 개의 훈련 인스턴스와 11개 이하의 GitHub 저장소에서 수집된 데이터로 구성되어 있습니다. 이러한 데이터셋을 정제하는 절차는 복잡하며, 수백 시간의 인력이 필요합니다. 또한, 동반 실행 환경은 테라바이트 단위의 저장 공간을 차지하여 확장성과 사용성을 심각하게 제한합니다. 이러한 문제를 해결하기 위해, 우리는 대규모 소프트웨어 엔지니어링 훈련 데이터를 생성하기 위한 새로운 파이프라인인 SWE-smith를 소개합니다. SWE-smith는 주어진 Python 코드베이스에 대해 해당 실행 환경을 구축한 후, 코드베이스의 기존 테스트를 실패시키는 수백에서 수천 개의 작업 인스턴스를 자동으로 합성합니다. SWE-smith를 사용하여, 우리는 128개의 GitHub 저장소에서 수집된 5만 개의 인스턴스로 구성된 데이터셋을 생성했으며, 이는 이전 모든 연구보다 한 차원 더 큰 규모입니다. 우리는 SWE-agent-LM-32B를 훈련시켜 SWE-bench Verified 벤치마크에서 40.2%의 Pass@1 해결률을 달성했으며, 이는 오픈 소스 모델 중 최고 수준입니다. 우리는 SWE-smith(수집 절차, 작업 인스턴스, 궤적, 모델)를 오픈 소스로 공개하여 자동화된 소프트웨어 엔지니어링을 위한 LM 시스템 연구의 진입 장벽을 낮추고자 합니다. 모든 자산은 https://swesmith.com에서 확인할 수 있습니다.
English
Despite recent progress in Language Models (LMs) for software engineering, collecting training data remains a significant pain point. Existing datasets are small, with at most 1,000s of training instances from 11 or fewer GitHub repositories. The procedures to curate such datasets are often complex, necessitating hundreds of hours of human labor; companion execution environments also take up several terabytes of storage, severely limiting their scalability and usability. To address this pain point, we introduce SWE-smith, a novel pipeline for generating software engineering training data at scale. Given any Python codebase, SWE-smith constructs a corresponding execution environment, then automatically synthesizes 100s to 1,000s of task instances that break existing test(s) in the codebase. Using SWE-smith, we create a dataset of 50k instances sourced from 128 GitHub repositories, an order of magnitude larger than all previous works. We train SWE-agent-LM-32B, achieving 40.2% Pass@1 resolve rate on the SWE-bench Verified benchmark, state of the art among open source models. We open source SWE-smith (collection procedure, task instances, trajectories, models) to lower the barrier of entry for research in LM systems for automated software engineering. All assets available at https://swesmith.com.

Summary

AI-Generated Summary

PDF71May 7, 2025