SWE-fficiency: Os Modelos de Linguagem Podem Otimizar Repositórios do Mundo Real em Cargas de Trabalho Reais?

Resumo

A otimização do desempenho de repositórios de software em larga escala exige conhecimentos especializados em raciocínio sobre código e engenharia de software (SWE) para reduzir o tempo de execução, preservando a correção do programa. No entanto, a maioria dos *benchmarks* enfatiza o *o que* corrigir em vez de *como* corrigir o código. Apresentamos o SWE-fficiency, um *benchmark* para avaliar a otimização de desempenho em nível de repositório em cargas de trabalho reais. Nossa suíte contém 498 tarefas em nove repositórios amplamente utilizados de ciência de dados, aprendizado de máquina e HPC (por exemplo, numpy, pandas, scipy): dado uma base de código completa e uma carga de trabalho lenta, um agente deve investigar a semântica do código, localizar gargalos e testes relevantes, e produzir um *patch* que iguale ou supere a aceleração obtida por um especialista, passando nos mesmos testes unitários. Para permitir esta avaliação de *como corrigir*, nosso *pipeline* automatizado extrai *pull requests* do GitHub que contenham edições de melhoria de desempenho, combinando filtragem por palavras-chave, análise estática, ferramentas de cobertura e validação de execução para confirmar as linhas de base de aceleração dos especialistas e identificar os testes unitários relevantes do repositório. A avaliação empírica de agentes state-of-the-art revela um desempenho significativamente abaixo do esperado. Em média, os agentes alcançam menos de 0,15x da aceleração obtida pelo especialista: os agentes têm dificuldade em localizar oportunidades de otimização, raciocinar sobre a execução através de funções e manter a correção nas edições propostas. Disponibilizamos o *benchmark* e o *pipeline* de dados associado para facilitar a pesquisa em engenharia de desempenho automatizada e raciocínio de software de longo horizonte.

English

Optimizing the performance of large-scale software repositories demands expertise in code reasoning and software engineering (SWE) to reduce runtime while preserving program correctness. However, most benchmarks emphasize what to fix rather than how to fix code. We introduce SWE-fficiency, a benchmark for evaluating repository-level performance optimization on real workloads. Our suite contains 498 tasks across nine widely used data-science, machine-learning, and HPC repositories (e.g., numpy, pandas, scipy): given a complete codebase and a slow workload, an agent must investigate code semantics, localize bottlenecks and relevant tests, and produce a patch that matches or exceeds expert speedup while passing the same unit tests. To enable this how-to-fix evaluation, our automated pipeline scrapes GitHub pull requests for performance-improving edits, combining keyword filtering, static analysis, coverage tooling, and execution validation to both confirm expert speedup baselines and identify relevant repository unit tests. Empirical evaluation of state-of-the-art agents reveals significant underperformance. On average, agents achieve less than 0.15x the expert speedup: agents struggle in localizing optimization opportunities, reasoning about execution across functions, and maintaining correctness in proposed edits. We release the benchmark and accompanying data pipeline to facilitate research on automated performance engineering and long-horizon software reasoning.

SWE-fficiency: Os Modelos de Linguagem Podem Otimizar Repositórios do Mundo Real em Cargas de Trabalho Reais?

SWE-fficiency: Can Language Models Optimize Real-World Repositories on Real Workloads?

Resumo

Support