SWE-Perf: ¿Pueden los modelos de lenguaje optimizar el rendimiento del código en repositorios del mundo real?
SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?
July 16, 2025
Autores: Xinyi He, Qian Liu, Mingzhe Du, Lin Yan, Zhijie Fan, Yiming Huang, Zejian Yuan, Zejun Ma
cs.AI
Resumen
La optimización del rendimiento del código es primordial en la ingeniería de software del mundo real y crucial para los sistemas de nivel de producción. Si bien los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades impresionantes en la generación de código y la corrección de errores, su competencia en la mejora del rendimiento del código a nivel de repositorio sigue siendo en gran medida inexplorada. Para abordar esta brecha, presentamos SWE-Perf, el primer punto de referencia diseñado específicamente para evaluar sistemáticamente a los LLMs en tareas de optimización del rendimiento del código dentro de contextos de repositorios auténticos. SWE-Perf consta de 140 instancias cuidadosamente seleccionadas, cada una derivada de solicitudes de extracción (pull requests) que mejoran el rendimiento en repositorios populares de GitHub. Cada instancia del punto de referencia incluye la base de código relevante, las funciones objetivo, pruebas relacionadas con el rendimiento, parches creados por expertos y entornos ejecutables. A través de una evaluación exhaustiva de métodos representativos que abordan enfoques a nivel de archivo y de repositorio (por ejemplo, Agentless y OpenHands), revelamos una brecha sustancial en las capacidades entre los LLMs existentes y el rendimiento de optimización a nivel de experto, destacando oportunidades críticas de investigación en este campo emergente.
English
Code performance optimization is paramount in real-world software engineering
and critical for production-level systems. While Large Language Models (LLMs)
have demonstrated impressive capabilities in code generation and bug fixing,
their proficiency in enhancing code performance at the repository level remains
largely unexplored. To address this gap, we introduce SWE-Perf, the first
benchmark specifically designed to systematically evaluate LLMs on code
performance optimization tasks within authentic repository contexts. SWE-Perf
comprises 140 carefully curated instances, each derived from
performance-improving pull requests from popular GitHub repositories. Each
benchmark instance includes the relevant codebase, target functions,
performance-related tests, expert-authored patches, and executable
environments. Through a comprehensive evaluation of representative methods that
span file-level and repo-level approaches (e.g., Agentless and OpenHands), we
reveal a substantial capability gap between existing LLMs and expert-level
optimization performance, highlighting critical research opportunities in this
emerging field.