SWE-Perf: Können Sprachmodelle die Codeleistung in realen Repositories optimieren?
SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?
July 16, 2025
papers.authors: Xinyi He, Qian Liu, Mingzhe Du, Lin Yan, Zhijie Fan, Yiming Huang, Zejian Yuan, Zejun Ma
cs.AI
papers.abstract
Die Optimierung der Codeleistung ist in der realen Softwareentwicklung von größter Bedeutung und entscheidend für Produktionssysteme. Während große Sprachmodelle (LLMs) beeindruckende Fähigkeiten in der Codegenerierung und Fehlerbehebung gezeigt haben, bleibt ihre Kompetenz bei der Verbesserung der Codeleistung auf Repository-Ebene weitgehend unerforscht. Um diese Lücke zu schließen, stellen wir SWE-Perf vor, den ersten Benchmark, der speziell entwickelt wurde, um LLMs systematisch auf Codeleistungsoptimierungsaufgaben in authentischen Repository-Kontexten zu evaluieren. SWE-Perf umfasst 140 sorgfältig ausgewählte Instanzen, die jeweils aus leistungssteigernden Pull-Requests beliebter GitHub-Repositories abgeleitet sind. Jede Benchmark-Instanz beinhaltet den relevanten Codebase, Zielfunktionen, leistungsbezogene Tests, von Experten erstellte Patches und ausführbare Umgebungen. Durch eine umfassende Bewertung repräsentativer Methoden, die datei- und repository-basierte Ansätze abdecken (z. B. Agentless und OpenHands), zeigen wir eine erhebliche Fähigkeitslücke zwischen bestehenden LLMs und der Optimierungsleistung auf Expertenniveau auf, was kritische Forschungsmöglichkeiten in diesem aufstrebenden Feld hervorhebt.
English
Code performance optimization is paramount in real-world software engineering
and critical for production-level systems. While Large Language Models (LLMs)
have demonstrated impressive capabilities in code generation and bug fixing,
their proficiency in enhancing code performance at the repository level remains
largely unexplored. To address this gap, we introduce SWE-Perf, the first
benchmark specifically designed to systematically evaluate LLMs on code
performance optimization tasks within authentic repository contexts. SWE-Perf
comprises 140 carefully curated instances, each derived from
performance-improving pull requests from popular GitHub repositories. Each
benchmark instance includes the relevant codebase, target functions,
performance-related tests, expert-authored patches, and executable
environments. Through a comprehensive evaluation of representative methods that
span file-level and repo-level approaches (e.g., Agentless and OpenHands), we
reveal a substantial capability gap between existing LLMs and expert-level
optimization performance, highlighting critical research opportunities in this
emerging field.