SWE-Bench++: Un Framework per la Generazione Scalabile di Benchmark di Ingegneria del Software da Repository Open-Source
SWE-Bench++: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source Repositories
December 19, 2025
Autori: Lilin Wang, Lucas Ramalho, Alan Celestino, Phuc Anthony Pham, Yu Liu, Umang Kumar Sinha, Andres Portillo, Onassis Osunwa, Gabriel Maduekwe
cs.AI
Abstract
Benchmark come SWE-bench hanno standardizzato la valutazione di Large Language Model (LLM) su compiti di ingegneria del software a livello di repository. Tuttavia, questi sforzi rimangono limitati dalla curatela manuale, da dataset statici e da un focus su correzioni di bug basate su Python. Introduciamo SWE-Bench++, un framework automatizzato che genera compiti di codifica a livello di repository a partire da progetti GitHub open-source. A differenza degli approcci sintetici, la nostra pipeline raccoglie pull request attive per coprire sia correzioni di bug che richieste di funzionalità in 11 linguaggi. SWE-Bench++ trasforma le pull request (PR) di GitHub in compiti riproducibili e basati sull'esecuzione attraverso quattro fasi: approvvigionamento programmatico, sintesi dell'ambiente, estrazione di oracoli di test e assicurazione della qualità. Un ultimo passo di sintesi di traiettorie guidata da suggerimenti converte le istanze su cui i modelli più potenti falliscono in traiettorie di addestramento. Il nostro benchmark iniziale consiste di 11.133 istanze provenienti da 3.971 repository in 11 linguaggi. Su un sottoinsieme di 1.782 istanze di questo benchmark, i modelli più potenti di oggi performano come segue: claude-sonnet-4.5 raggiunge il 36,20% di pass@10, gpt-5-2025-08-07 il 34,57%, gemini/gemini-2.5-pro il 24,92% e gpt-4o il 16,89%. Dimostriamo ulteriormente l'utilità del nostro dataset mostrando che il fine-tuning su istanze di SWE-Bench++ produce miglioramenti misurabili sul benchmark SWE-bench Multilingual. SWE-Bench++ fornisce un benchmark scalabile e multilingue per valutare e migliorare la generazione di codice a livello di repository.
English
Benchmarks like SWE-bench have standardized the evaluation of Large Language Models (LLMs) on repository-level software engineering tasks. However, these efforts remain limited by manual curation, static datasets, and a focus on Python-based bug fixes. We introduce SWE-Bench++, an automated framework that generates repository-level coding tasks from open-source GitHub projects. Unlike synthetic approaches, our pipeline harvests live pull requests to cover both bug fixes and feature requests across 11 languages. SWE-Bench++ turns GitHub pull requests (PRs) into reproducible, execution-based tasks via four stages: programmatic sourcing, environment synthesis, test oracle extraction, and quality assurance. A final hint-guided trajectory synthesis step converts instances that strong models fail on into training trajectories. Our initial benchmark consists of 11,133 instances from 3,971 repositories across 11 languages. On a subset of 1,782 instances of this benchmark, today's strongest models perform as follows: claude-sonnet-4.5 achieves 36.20% pass@10, gpt-5-2025-08-07 34.57%, gemini/gemini-2.5-pro 24.92%, and gpt-4o 16.89%. We further demonstrate the utility of our dataset by showing that fine-tuning on SWE-Bench++ instances yields measurable improvements on the SWE-bench Multilingual benchmark. SWE-Bench++ provides a scalable, multilingual benchmark for evaluating and improving repository-level code generation.