SWE-fficiency: Können Sprachmodelle reale Code-Repositories mit echten Arbeitslasten optimieren?

papers.abstract

Die Optimierung der Leistung groß angelegter Software-Repositorys erfordert Expertise in Code-Analyse und Softwareentwicklung (SWE), um die Laufzeit zu reduzieren und gleichzeitig die Programmkorrektheit zu erhalten. Die meisten Benchmarks konzentrieren sich jedoch darauf, was zu beheben ist, anstatt darauf, wie Code zu optimieren ist. Wir stellen SWE-fficiency vor, einen Benchmark zur Bewertung leistungsorientierter Optimierung auf Repository-Ebene mit realen Workloads. Unsere Testsuite umfasst 498 Aufgaben aus neun weit verbreiteten Data-Science-, Machine-Learning- und HPC-Repositorys (z.B. numpy, pandas, scipy): Ausgehend von einer vollständigen Codebasis und einer langsamen Arbeitslast muss ein Agent Code-Semantik analysieren, Engpässe und relevante Tests lokalisieren sowie einen Patch erstellen, der die Expertenbeschleunigung erreicht oder übertrifft und gleichfalls alle Unit Tests besteht. Um diese "Wie-zu-beheben"-Evaluation zu ermöglichen, extrahiert unsere automatisierte Pipeline Performance-Verbesserungen aus GitHub-Pull-Requests durch Keyword-Filterung, statische Analyse, Coverage-Tools und Ausführungsvalidierung, um sowohl Experten-Beschleunigungsbaselines zu bestätigen als auch relevante Repository-Unit-Tests zu identifizieren. Die empirische Auswertung modernster Agenten zeigt erhebliche Leistungsdefizite: Im Durchschnitt erreichen Agenten weniger als 0,15x der Expertenbeschleunigung. Sie scheitern bei der Lokalisierung von Optimierungspotenzialen, der übergreifenden Analyse von Funktionsausführungen und der Wahrung der Korrektheit in ihren Änderungsvorschlägen. Wir veröffentlichen den Benchmark und die zugehörige Datenpipeline, um Forschung zu automatisierter Performance-Optimierung und langfristiger Software-Analyse zu fördern.

English

Optimizing the performance of large-scale software repositories demands expertise in code reasoning and software engineering (SWE) to reduce runtime while preserving program correctness. However, most benchmarks emphasize what to fix rather than how to fix code. We introduce SWE-fficiency, a benchmark for evaluating repository-level performance optimization on real workloads. Our suite contains 498 tasks across nine widely used data-science, machine-learning, and HPC repositories (e.g., numpy, pandas, scipy): given a complete codebase and a slow workload, an agent must investigate code semantics, localize bottlenecks and relevant tests, and produce a patch that matches or exceeds expert speedup while passing the same unit tests. To enable this how-to-fix evaluation, our automated pipeline scrapes GitHub pull requests for performance-improving edits, combining keyword filtering, static analysis, coverage tooling, and execution validation to both confirm expert speedup baselines and identify relevant repository unit tests. Empirical evaluation of state-of-the-art agents reveals significant underperformance. On average, agents achieve less than 0.15x the expert speedup: agents struggle in localizing optimization opportunities, reasoning about execution across functions, and maintaining correctness in proposed edits. We release the benchmark and accompanying data pipeline to facilitate research on automated performance engineering and long-horizon software reasoning.

SWE-fficiency: Können Sprachmodelle reale Code-Repositories mit echten Arbeitslasten optimieren?

SWE-fficiency: Can Language Models Optimize Real-World Repositories on Real Workloads?

papers.abstract

Support