SWE-Bench++: 오픈소스 저장소로부터 확장 가능한 소프트웨어 엔지니어링 벤치마크 생성 프레임워크
SWE-Bench++: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source Repositories
December 19, 2025
저자: Lilin Wang, Lucas Ramalho, Alan Celestino, Phuc Anthony Pham, Yu Liu, Umang Kumar Sinha, Andres Portillo, Onassis Osunwa, Gabriel Maduekwe
cs.AI
초록
SWE-bench와 같은 벤치마크는 저장소 수준의 소프트웨어 엔지니어링 작업에 대한 대규모 언어 모델(LLM) 평가를 표준화했습니다. 그러나 이러한 노력은 수동 큐레이션, 정적 데이터셋, 그리고 Python 기반 버그 수정에 집중한다는 한계를 지닙니다. 우리는 오픈소스 GitHub 프로젝트에서 저장소 수준의 코딩 작업을 생성하는 자동화 프레임워크인 SWE-Bench++를 소개합니다. 합성적 접근법과 달리, 우리의 파이프라인은 라이브 풀 리퀘스트를 수집하여 11개 언어에 걸친 버그 수정과 기능 요구사항을 모두 다룹니다. SWE-Bench++는 프로그램 방식의 소싱, 환경 합성, 테스트 오라클 추출, 품질 보증이라는 네 단계를 통해 GitHub 풀 리퀘스트(PR)를 재현 가능하고 실행 기반의 작업으로 전환합니다. 최종 힌트 기반 궤적 합성 단계는 강력한 모델들이 실패한 인스턴스를 훈련 궤적으로 변환합니다. 우리의 초기 벤치마크는 11개 언어, 3,971개 저장소의 11,133개 인스턴스로 구성됩니다. 이 벤치마크의 1,782개 인스턴스 하위 집합에서 현재 가장 강력한 모델들의 성능은 다음과 같습니다: claude-sonnet-4.5는 36.20% pass@10, gpt-5-2025-08-07은 34.57%, gemini/gemini-2.5-pro는 24.92%, gpt-4o는 16.89%를 달성했습니다. 우리는 SWE-Bench++ 인스턴스에 대한 미세 조정이 SWE-bench Multilingual 벤치마크에서 측정 가능한 성능 향상을 가져온다는 점을 보여줌으로써 데이터셋의 유용성을 추가로 입증합니다. SWE-Bench++는 저장소 수준 코드 생성의 평가와 개선을 위한 확장 가능하고 다국어적인 벤치마크를 제공합니다.
English
Benchmarks like SWE-bench have standardized the evaluation of Large Language Models (LLMs) on repository-level software engineering tasks. However, these efforts remain limited by manual curation, static datasets, and a focus on Python-based bug fixes. We introduce SWE-Bench++, an automated framework that generates repository-level coding tasks from open-source GitHub projects. Unlike synthetic approaches, our pipeline harvests live pull requests to cover both bug fixes and feature requests across 11 languages. SWE-Bench++ turns GitHub pull requests (PRs) into reproducible, execution-based tasks via four stages: programmatic sourcing, environment synthesis, test oracle extraction, and quality assurance. A final hint-guided trajectory synthesis step converts instances that strong models fail on into training trajectories. Our initial benchmark consists of 11,133 instances from 3,971 repositories across 11 languages. On a subset of 1,782 instances of this benchmark, today's strongest models perform as follows: claude-sonnet-4.5 achieves 36.20% pass@10, gpt-5-2025-08-07 34.57%, gemini/gemini-2.5-pro 24.92%, and gpt-4o 16.89%. We further demonstrate the utility of our dataset by showing that fine-tuning on SWE-Bench++ instances yields measurable improvements on the SWE-bench Multilingual benchmark. SWE-Bench++ provides a scalable, multilingual benchmark for evaluating and improving repository-level code generation.