SWE-Bench++: Um Framework para a Geração Escalável de Benchmarks de Engenharia de Software a partir de Repositórios Open-Source

Resumo

Benchmarks como o SWE-bench padronizaram a avaliação de Modelos de Linguagem de Grande Escala (LLMs) em tarefas de engenharia de software em nível de repositório. No entanto, esses esforços permanecem limitados pela curadoria manual, conjuntos de dados estáticos e um foco em correções de bugs baseadas em Python. Apresentamos o SWE-Bench++, uma estrutura automatizada que gera tarefas de codificação em nível de repositório a partir de projetos de código aberto do GitHub. Diferente de abordagens sintéticas, nosso *pipeline* coleta *pull requests* ativos para abranger tanto correções de bugs quanto solicitações de funcionalidades em 11 linguagens. O SWE-Bench++ transforma *pull requests* (PRs) do GitHub em tarefas reproduzíveis e baseadas em execução por meio de quatro estágios: captação programática, síntese de ambiente, extração de oráculo de teste e garantia de qualidade. Um passo final de síntese de trajetória com dicas converte instâncias em que modelos robustos falham em trajetórias de treinamento. Nosso *benchmark* inicial consiste em 11.133 instâncias de 3.971 repositórios em 11 linguagens. Em um subconjunto de 1.782 instâncias deste *benchmark*, os modelos mais fortes atuais têm o seguinte desempenho: claude-sonnet-4.5 alcança 36,20% de *pass@10*, gpt-5-2025-08-07 34,57%, gemini/gemini-2.5-pro 24,92% e gpt-4o 16,89%. Demonstramos ainda a utilidade do nosso conjunto de dados ao mostrar que o *fine-tuning* em instâncias do SWE-Bench++ produz melhorias mensuráveis no *benchmark* SWE-bench Multilingual. O SWE-Bench++ fornece um *benchmark* escalável e multilíngue para avaliar e melhorar a geração de código em nível de repositório.

English

Benchmarks like SWE-bench have standardized the evaluation of Large Language Models (LLMs) on repository-level software engineering tasks. However, these efforts remain limited by manual curation, static datasets, and a focus on Python-based bug fixes. We introduce SWE-Bench++, an automated framework that generates repository-level coding tasks from open-source GitHub projects. Unlike synthetic approaches, our pipeline harvests live pull requests to cover both bug fixes and feature requests across 11 languages. SWE-Bench++ turns GitHub pull requests (PRs) into reproducible, execution-based tasks via four stages: programmatic sourcing, environment synthesis, test oracle extraction, and quality assurance. A final hint-guided trajectory synthesis step converts instances that strong models fail on into training trajectories. Our initial benchmark consists of 11,133 instances from 3,971 repositories across 11 languages. On a subset of 1,782 instances of this benchmark, today's strongest models perform as follows: claude-sonnet-4.5 achieves 36.20% pass@10, gpt-5-2025-08-07 34.57%, gemini/gemini-2.5-pro 24.92%, and gpt-4o 16.89%. We further demonstrate the utility of our dataset by showing that fine-tuning on SWE-Bench++ instances yields measurable improvements on the SWE-bench Multilingual benchmark. SWE-Bench++ provides a scalable, multilingual benchmark for evaluating and improving repository-level code generation.

SWE-Bench++: Um Framework para a Geração Escalável de Benchmarks de Engenharia de Software a partir de Repositórios Open-Source

SWE-Bench++: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source Repositories

Resumo

Support