SWE-Bench++ : Un cadre pour la génération évolutive de benchmarks en génie logiciel à partir de dépôts open source

papers.abstract

Des benchmarks comme SWE-bench ont standardisé l'évaluation des grands modèles de langage (LLM) sur des tâches de génie logiciel au niveau du dépôt de code. Cependant, ces efforts restent limités par une curation manuelle, des jeux de données statiques et une focalisation sur les corrections de bogues en Python. Nous présentons SWE-Bench++, un cadre automatisé qui génère des tâches de codage au niveau du dépôt à partir de projets GitHub open source. Contrairement aux approches synthétiques, notre pipeline collecte des demandes de tirage (pull requests) en direct pour couvrir à la fois les corrections de bogues et les demandes de fonctionnalités dans 11 langages. SWE-Bench++ transforme les demandes de tirage GitHub en tâches reproductibles et basées sur l'exécution via quatre étapes : l'approvisionnement programmatique, la synthèse de l'environnement, l'extraction d'oracles de test et l'assurance qualité. Une étape finale de synthèse de trajectoire guidée par des indices convertit les instances sur lesquelles les modèles performants échouent en trajectoires d'apprentissage. Notre benchmark initial se compose de 11 133 instances provenant de 3 971 dépôts couvrant 11 langages. Sur un sous-ensemble de 1 782 instances de ce benchmark, les modèles les plus performants d'aujourd'hui obtiennent les résultats suivants : claude-sonnet-4.5 atteint 36,20 % de pass@10, gpt-5-2025-08-07 34,57 %, gemini/gemini-2.5-pro 24,92 % et gpt-4o 16,89 %. Nous démontrons en outre l'utilité de notre jeu de données en montrant qu'un affinage (fine-tuning) sur les instances de SWE-Bench++ produit des améliorations mesurables sur le benchmark multilingue SWE-bench. SWE-Bench++ fournit un benchmark évolutif et multilingue pour évaluer et améliorer la génération de code au niveau du dépôt.

English

Benchmarks like SWE-bench have standardized the evaluation of Large Language Models (LLMs) on repository-level software engineering tasks. However, these efforts remain limited by manual curation, static datasets, and a focus on Python-based bug fixes. We introduce SWE-Bench++, an automated framework that generates repository-level coding tasks from open-source GitHub projects. Unlike synthetic approaches, our pipeline harvests live pull requests to cover both bug fixes and feature requests across 11 languages. SWE-Bench++ turns GitHub pull requests (PRs) into reproducible, execution-based tasks via four stages: programmatic sourcing, environment synthesis, test oracle extraction, and quality assurance. A final hint-guided trajectory synthesis step converts instances that strong models fail on into training trajectories. Our initial benchmark consists of 11,133 instances from 3,971 repositories across 11 languages. On a subset of 1,782 instances of this benchmark, today's strongest models perform as follows: claude-sonnet-4.5 achieves 36.20% pass@10, gpt-5-2025-08-07 34.57%, gemini/gemini-2.5-pro 24.92%, and gpt-4o 16.89%. We further demonstrate the utility of our dataset by showing that fine-tuning on SWE-Bench++ instances yields measurable improvements on the SWE-bench Multilingual benchmark. SWE-Bench++ provides a scalable, multilingual benchmark for evaluating and improving repository-level code generation.

SWE-Bench++ : Un cadre pour la génération évolutive de benchmarks en génie logiciel à partir de dépôts open source

SWE-Bench++: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source Repositories

papers.abstract

Support