SWE-Bench++: Een Framework voor de Schaalbare Generatie van Software Engineering Benchmarks uit Open-Source Repositories

Samenvatting

Benchmarks zoals SWE-bench hebben de evaluatie van Large Language Models (LLM's) voor software-engineeringtaken op repositoryniveau gestandaardiseerd. Deze inspanningen worden echter nog steeds beperkt door handmatige curatie, statische datasets en een focus op Python-gebaseerde bugfixes. Wij introduceren SWE-Bench++, een geautomatiseerd framework dat programmeertaken op repositoryniveau genereert uit open-source GitHub-projecten. In tegenstelling tot synthetische benaderingen, oogst onze pipeline live pull requests om zowel bugfixes als functieverzoeken in 11 programmeertalen te dekken. SWE-Bench++ zet GitHub pull requests (PR's) om in reproduceerbare, op uitvoering gebaseerde taken via vier fasen: programmatische sourcing, omgevingssynthese, extractie van testorakels en kwaliteitsborging. Een laatste stap van hint-gestuurde trajectensynthese zet instanties waar sterke modellen op falen om in trainingspaden. Onze initiële benchmark bestaat uit 11.133 instanties afkomstig van 3.971 repositories in 11 talen. Op een subset van 1.782 instanties van deze benchmark presteren de huidige sterkste modellen als volgt: claude-sonnet-4.5 behaalt 36,20% pass@10, gpt-5-2025-08-07 34,57%, gemini/gemini-2.5-pro 24,92% en gpt-4o 16,89%. We tonen verder de bruikbaarheid van onze dataset aan door te laten zien dat fine-tuning op SWE-Bench++ instanties meetbare verbeteringen oplevert op de SWE-bench Multilingual benchmark. SWE-Bench++ biedt een schaalbare, meertalige benchmark voor het evalueren en verbeteren van codegeneratie op repositoryniveau.

English

Benchmarks like SWE-bench have standardized the evaluation of Large Language Models (LLMs) on repository-level software engineering tasks. However, these efforts remain limited by manual curation, static datasets, and a focus on Python-based bug fixes. We introduce SWE-Bench++, an automated framework that generates repository-level coding tasks from open-source GitHub projects. Unlike synthetic approaches, our pipeline harvests live pull requests to cover both bug fixes and feature requests across 11 languages. SWE-Bench++ turns GitHub pull requests (PRs) into reproducible, execution-based tasks via four stages: programmatic sourcing, environment synthesis, test oracle extraction, and quality assurance. A final hint-guided trajectory synthesis step converts instances that strong models fail on into training trajectories. Our initial benchmark consists of 11,133 instances from 3,971 repositories across 11 languages. On a subset of 1,782 instances of this benchmark, today's strongest models perform as follows: claude-sonnet-4.5 achieves 36.20% pass@10, gpt-5-2025-08-07 34.57%, gemini/gemini-2.5-pro 24.92%, and gpt-4o 16.89%. We further demonstrate the utility of our dataset by showing that fine-tuning on SWE-Bench++ instances yields measurable improvements on the SWE-bench Multilingual benchmark. SWE-Bench++ provides a scalable, multilingual benchmark for evaluating and improving repository-level code generation.

SWE-Bench++: Een Framework voor de Schaalbare Generatie van Software Engineering Benchmarks uit Open-Source Repositories

SWE-Bench++: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source Repositories

Samenvatting

Support