SWE-Perf : Les modèles de langage peuvent-ils optimiser les performances du code sur des dépôts réels ?
SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?
July 16, 2025
papers.authors: Xinyi He, Qian Liu, Mingzhe Du, Lin Yan, Zhijie Fan, Yiming Huang, Zejian Yuan, Zejun Ma
cs.AI
papers.abstract
L'optimisation des performances du code est primordiale dans le génie logiciel réel et cruciale pour les systèmes de niveau production. Bien que les modèles de langage de grande taille (LLMs) aient démontré des capacités impressionnantes en génération de code et en correction de bugs, leur compétence dans l'amélioration des performances du code au niveau du dépôt reste largement inexplorée. Pour combler cette lacune, nous introduisons SWE-Perf, le premier benchmark spécifiquement conçu pour évaluer systématiquement les LLMs sur des tâches d'optimisation des performances du code dans des contextes de dépôts authentiques. SWE-Perf comprend 140 instances soigneusement sélectionnées, chacune dérivée de demandes d'extraction visant à améliorer les performances provenant de dépôts GitHub populaires. Chaque instance de benchmark inclut la base de code pertinente, les fonctions cibles, les tests liés aux performances, les correctifs rédigés par des experts et des environnements exécutables. Grâce à une évaluation exhaustive des méthodes représentatives couvrant les approches au niveau fichier et dépôt (par exemple, Agentless et OpenHands), nous révélons un écart de capacité substantiel entre les LLMs existants et les performances d'optimisation de niveau expert, mettant en lumière des opportunités de recherche critiques dans ce domaine émergent.
English
Code performance optimization is paramount in real-world software engineering
and critical for production-level systems. While Large Language Models (LLMs)
have demonstrated impressive capabilities in code generation and bug fixing,
their proficiency in enhancing code performance at the repository level remains
largely unexplored. To address this gap, we introduce SWE-Perf, the first
benchmark specifically designed to systematically evaluate LLMs on code
performance optimization tasks within authentic repository contexts. SWE-Perf
comprises 140 carefully curated instances, each derived from
performance-improving pull requests from popular GitHub repositories. Each
benchmark instance includes the relevant codebase, target functions,
performance-related tests, expert-authored patches, and executable
environments. Through a comprehensive evaluation of representative methods that
span file-level and repo-level approaches (e.g., Agentless and OpenHands), we
reveal a substantial capability gap between existing LLMs and expert-level
optimization performance, highlighting critical research opportunities in this
emerging field.