SWE-fficiëntie: Kunnen Taalmodellen Real-World Repositories Optimaliseren op Basis van Realistische Workloads?

Samenvatting

Het optimaliseren van de prestaties van grootschalige softwarerepositories vereist expertise in coderedenering en software engineering (SWE) om de runtime te verkorten terwijl de programmacorrectheid behouden blijft. De meeste benchmarks leggen echter de nadruk op wát er moet worden gerepareerd in plaats van hóé code moet worden gerepareerd. Wij introduceren SWE-fficiency, een benchmark voor het evalueren van prestatieoptimalisatie op repositoryniveau bij echte workloads. Onze suite bevat 498 taken verdeeld over negen veelgebruikte data science, machine learning en HPC repositories (zoals numpy, pandas, scipy): gegeven een complete codebase en een trage workload moet een agent de codesemantiek onderzoeken, knelpunten en relevante tests lokaliseren, en een patch produceren die de expertsnelheidsverbetering evenaart of overtreft, terwijl dezelfde unittests worden doorstaan. Om deze evaluatie van hóé te repareren mogelijk te maken, verzamelt onze geautomatiseerde pijplijn GitHub pull requests voor prestatieverbeterende bewerkingen, waarbij keyword filtering, statische analyse, coverage tooling en uitvoeringsvalidatie worden gecombineerd om zowel expertsnelheidsverbeteringsbaselines te bevestigen als relevante repository unittests te identificeren. Empirische evaluatie van state-of-the-art agents toont een significante ondermaatse prestatie. Gemiddeld behalen agents minder dan 0,15x de expertsnelheidsverbetering: agents worstelen met het lokaliseren van optimalisatiemogelijkheden, het redeneren over uitvoering tussen functies, en het handhaven van correctheid in voorgestelde bewerkingen. Wij publiceren de benchmark en de bijbehorende datapijplijn om onderzoek naar geautomatiseerde prestatie-engineering en langetermijn softwareredenering te faciliteren.

English

Optimizing the performance of large-scale software repositories demands expertise in code reasoning and software engineering (SWE) to reduce runtime while preserving program correctness. However, most benchmarks emphasize what to fix rather than how to fix code. We introduce SWE-fficiency, a benchmark for evaluating repository-level performance optimization on real workloads. Our suite contains 498 tasks across nine widely used data-science, machine-learning, and HPC repositories (e.g., numpy, pandas, scipy): given a complete codebase and a slow workload, an agent must investigate code semantics, localize bottlenecks and relevant tests, and produce a patch that matches or exceeds expert speedup while passing the same unit tests. To enable this how-to-fix evaluation, our automated pipeline scrapes GitHub pull requests for performance-improving edits, combining keyword filtering, static analysis, coverage tooling, and execution validation to both confirm expert speedup baselines and identify relevant repository unit tests. Empirical evaluation of state-of-the-art agents reveals significant underperformance. On average, agents achieve less than 0.15x the expert speedup: agents struggle in localizing optimization opportunities, reasoning about execution across functions, and maintaining correctness in proposed edits. We release the benchmark and accompanying data pipeline to facilitate research on automated performance engineering and long-horizon software reasoning.

SWE-fficiëntie: Kunnen Taalmodellen Real-World Repositories Optimaliseren op Basis van Realistische Workloads?

SWE-fficiency: Can Language Models Optimize Real-World Repositories on Real Workloads?

Samenvatting

Support