SWE-Bench++: Un Marco de Trabajo para la Generación Escalable de Puntos de Referencia en Ingeniería del Software a partir de Repositorios de Código Abierto

Resumen

Los benchmarks como SWE-bench han estandarizado la evaluación de Modelos de Lenguaje a Gran Escala (LLMs) en tareas de ingeniería de software a nivel de repositorio. Sin embargo, estos esfuerzos siguen limitados por la curación manual, conjuntos de datos estáticos y un enfoque en correcciones de errores basadas en Python. Presentamos SWE-Bench++, un marco automatizado que genera tareas de codificación a nivel de repositorio a partir de proyectos de código abierto en GitHub. A diferencia de los enfoques sintéticos, nuestra canalización aprovecha *pull requests* en vivo para cubrir tanto correcciones de errores como solicitudes de funcionalidades en 11 lenguajes. SWE-Bench++ convierte los *pull requests* (PRs) de GitHub en tareas reproducibles y basadas en ejecución mediante cuatro etapas: obtención programática, síntesis de entornos, extracción de oráculos de prueba y aseguramiento de calidad. Un paso final de síntesis de trayectorias guiadas por pistas convierte las instancias en las que los modelos más potentes fallan en trayectorias de entrenamiento. Nuestro benchmark inicial consta de 11.133 instancias de 3.971 repositorios en 11 lenguajes. En un subconjunto de 1.782 instancias de este benchmark, los modelos más potentes de la actualidad obtienen los siguientes resultados: claude-sonnet-4.5 logra un 36,20% en *pass@10*, gpt-5-2025-08-07 un 34,57%, gemini/gemini-2.5-pro un 24,92% y gpt-4o un 16,89%. Además, demostramos la utilidad de nuestro conjunto de datos mostrando que el ajuste fino en instancias de SWE-Bench++ produce mejoras medibles en el benchmark SWE-bench Multilingüe. SWE-Bench++ proporciona un benchmark escalable y multilingüe para evaluar y mejorar la generación de código a nivel de repositorio.

English

Benchmarks like SWE-bench have standardized the evaluation of Large Language Models (LLMs) on repository-level software engineering tasks. However, these efforts remain limited by manual curation, static datasets, and a focus on Python-based bug fixes. We introduce SWE-Bench++, an automated framework that generates repository-level coding tasks from open-source GitHub projects. Unlike synthetic approaches, our pipeline harvests live pull requests to cover both bug fixes and feature requests across 11 languages. SWE-Bench++ turns GitHub pull requests (PRs) into reproducible, execution-based tasks via four stages: programmatic sourcing, environment synthesis, test oracle extraction, and quality assurance. A final hint-guided trajectory synthesis step converts instances that strong models fail on into training trajectories. Our initial benchmark consists of 11,133 instances from 3,971 repositories across 11 languages. On a subset of 1,782 instances of this benchmark, today's strongest models perform as follows: claude-sonnet-4.5 achieves 36.20% pass@10, gpt-5-2025-08-07 34.57%, gemini/gemini-2.5-pro 24.92%, and gpt-4o 16.89%. We further demonstrate the utility of our dataset by showing that fine-tuning on SWE-Bench++ instances yields measurable improvements on the SWE-bench Multilingual benchmark. SWE-Bench++ provides a scalable, multilingual benchmark for evaluating and improving repository-level code generation.

SWE-Bench++: Un Marco de Trabajo para la Generación Escalable de Puntos de Referencia en Ingeniería del Software a partir de Repositorios de Código Abierto

SWE-Bench++: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source Repositories

Resumen

Support