SWE-Bench++: Ein Framework für die skalierbare Generierung von Software-Engineering-Benchmarks aus Open-Source-Repositories
SWE-Bench++: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source Repositories
December 19, 2025
papers.authors: Lilin Wang, Lucas Ramalho, Alan Celestino, Phuc Anthony Pham, Yu Liu, Umang Kumar Sinha, Andres Portillo, Onassis Osunwa, Gabriel Maduekwe
cs.AI
papers.abstract
Benchmarks wie SWE-bench haben die Evaluierung von Large Language Models (LLMs) für repository-weite Softwareentwicklungsaufgaben standardisiert. Diese Bemühungen bleiben jedoch durch manuelle Kuratierung, statische Datensätze und einen Fokus auf Python-basierte Fehlerbehebungen eingeschränkt. Wir stellen SWE-Bench++ vor, einen automatisierten Framework, der repository-weite Programmieraufgaben aus Open-Source-GitHub-Projekten generiert. Im Gegensatz zu synthetischen Ansätzen erntet unsere Pipeline aktive Pull Requests, um sowohl Fehlerbehebungen als auch Funktionsanfragen in 11 Programmiersprachen abzudecken. SWE-Bench++ verwandelt GitHub-Pull-Requests (PRs) durch vier Stufen in reproduzierbare, ausführungsbasierte Aufgaben: programmatische Beschaffung, Umgebungssynthese, Extraktion von Testorakeln und Qualitätssicherung. Ein abschließender Schritt zur hinweisgestützten Trajektoriensynthese konvertiert Instanzen, an denen starke Modelle scheitern, in Trainingsverläufe. Unser initialer Benchmark besteht aus 11.133 Instanzen aus 3.971 Repositories in 11 Sprachen. Bei einer Teilmenge von 1.782 Instanzen dieses Benchmarks erzielen die derzeit stärksten Modelle folgende Ergebnisse: claude-sonnet-4.5 erreicht 36,20 % pass@10, gpt-5-2025-08-07 34,57 %, gemini/gemini-2.5-pro 24,92 % und gpt-4o 16,89 %. Wir demonstrieren weiterhin den Nutzen unseres Datensatzes, indem wir zeigen, dass Fine-Tuning auf SWE-Bench++-Instanzen messbare Verbesserungen im SWE-bench Multilingual Benchmark bewirkt. SWE-Bench++ bietet einen skalierbaren, mehrsprachigen Benchmark zur Evaluierung und Verbesserung repository-weiter Codegenerierung.
English
Benchmarks like SWE-bench have standardized the evaluation of Large Language Models (LLMs) on repository-level software engineering tasks. However, these efforts remain limited by manual curation, static datasets, and a focus on Python-based bug fixes. We introduce SWE-Bench++, an automated framework that generates repository-level coding tasks from open-source GitHub projects. Unlike synthetic approaches, our pipeline harvests live pull requests to cover both bug fixes and feature requests across 11 languages. SWE-Bench++ turns GitHub pull requests (PRs) into reproducible, execution-based tasks via four stages: programmatic sourcing, environment synthesis, test oracle extraction, and quality assurance. A final hint-guided trajectory synthesis step converts instances that strong models fail on into training trajectories. Our initial benchmark consists of 11,133 instances from 3,971 repositories across 11 languages. On a subset of 1,782 instances of this benchmark, today's strongest models perform as follows: claude-sonnet-4.5 achieves 36.20% pass@10, gpt-5-2025-08-07 34.57%, gemini/gemini-2.5-pro 24.92%, and gpt-4o 16.89%. We further demonstrate the utility of our dataset by showing that fine-tuning on SWE-Bench++ instances yields measurable improvements on the SWE-bench Multilingual benchmark. SWE-Bench++ provides a scalable, multilingual benchmark for evaluating and improving repository-level code generation.