SWE-Perf: Kunnen Taalmodellen Code Prestaties Optimaliseren op Real-World Repositories?
SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?
July 16, 2025
Auteurs: Xinyi He, Qian Liu, Mingzhe Du, Lin Yan, Zhijie Fan, Yiming Huang, Zejian Yuan, Zejun Ma
cs.AI
Samenvatting
Optimalisatie van code-prestaties is van cruciaal belang in praktische software-engineering en essentieel voor productiesystemen. Hoewel grote taalmodellen (LLMs) indrukwekkende capaciteiten hebben getoond in codegeneratie en bugfixing, blijft hun vaardigheid in het verbeteren van code-prestaties op repositoryniveau grotendeels onontgonnen. Om deze leemte aan te pakken, introduceren we SWE-Perf, de eerste benchmark die specifiek is ontworpen om LLMs systematisch te evalueren op taken voor code-prestatieoptimalisatie binnen authentieke repositorycontexten. SWE-Perf bestaat uit 140 zorgvuldig samengestelde gevallen, elk afgeleid van prestatieverbeterende pull-requests uit populaire GitHub-repositories. Elk benchmarkgeval omvat de relevante codebase, doelgerichte functies, prestatiegerelateerde tests, door experts geschreven patches en uitvoerbare omgevingen. Door een uitgebreide evaluatie van representatieve methoden die bestandsniveau- en repositoryniveau-benaderingen omvatten (bijvoorbeeld Agentless en OpenHands), onthullen we een aanzienlijk capaciteitsgat tussen bestaande LLMs en expertniveau optimalisatieprestaties, wat belangrijke onderzoeksmogelijkheden in dit opkomende veld benadrukt.
English
Code performance optimization is paramount in real-world software engineering
and critical for production-level systems. While Large Language Models (LLMs)
have demonstrated impressive capabilities in code generation and bug fixing,
their proficiency in enhancing code performance at the repository level remains
largely unexplored. To address this gap, we introduce SWE-Perf, the first
benchmark specifically designed to systematically evaluate LLMs on code
performance optimization tasks within authentic repository contexts. SWE-Perf
comprises 140 carefully curated instances, each derived from
performance-improving pull requests from popular GitHub repositories. Each
benchmark instance includes the relevant codebase, target functions,
performance-related tests, expert-authored patches, and executable
environments. Through a comprehensive evaluation of representative methods that
span file-level and repo-level approaches (e.g., Agentless and OpenHands), we
reveal a substantial capability gap between existing LLMs and expert-level
optimization performance, highlighting critical research opportunities in this
emerging field.