SWE-Perf : Les modèles de langage peuvent-ils optimiser les performances du code sur des dépôts réels ?

papers.abstract

L'optimisation des performances du code est primordiale dans le génie logiciel réel et cruciale pour les systèmes de niveau production. Bien que les modèles de langage de grande taille (LLMs) aient démontré des capacités impressionnantes en génération de code et en correction de bugs, leur compétence dans l'amélioration des performances du code au niveau du dépôt reste largement inexplorée. Pour combler cette lacune, nous introduisons SWE-Perf, le premier benchmark spécifiquement conçu pour évaluer systématiquement les LLMs sur des tâches d'optimisation des performances du code dans des contextes de dépôts authentiques. SWE-Perf comprend 140 instances soigneusement sélectionnées, chacune dérivée de demandes d'extraction visant à améliorer les performances provenant de dépôts GitHub populaires. Chaque instance de benchmark inclut la base de code pertinente, les fonctions cibles, les tests liés aux performances, les correctifs rédigés par des experts et des environnements exécutables. Grâce à une évaluation exhaustive des méthodes représentatives couvrant les approches au niveau fichier et dépôt (par exemple, Agentless et OpenHands), nous révélons un écart de capacité substantiel entre les LLMs existants et les performances d'optimisation de niveau expert, mettant en lumière des opportunités de recherche critiques dans ce domaine émergent.

English

Code performance optimization is paramount in real-world software engineering and critical for production-level systems. While Large Language Models (LLMs) have demonstrated impressive capabilities in code generation and bug fixing, their proficiency in enhancing code performance at the repository level remains largely unexplored. To address this gap, we introduce SWE-Perf, the first benchmark specifically designed to systematically evaluate LLMs on code performance optimization tasks within authentic repository contexts. SWE-Perf comprises 140 carefully curated instances, each derived from performance-improving pull requests from popular GitHub repositories. Each benchmark instance includes the relevant codebase, target functions, performance-related tests, expert-authored patches, and executable environments. Through a comprehensive evaluation of representative methods that span file-level and repo-level approaches (e.g., Agentless and OpenHands), we reveal a substantial capability gap between existing LLMs and expert-level optimization performance, highlighting critical research opportunities in this emerging field.

SWE-Perf : Les modèles de langage peuvent-ils optimiser les performances du code sur des dépôts réels ?

SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?

papers.abstract

Support