ChatPaper.aiChatPaper

SWE-Perf: Os Modelos de Linguagem Podem Otimizar o Desempenho de Código em Repositórios do Mundo Real?

SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?

July 16, 2025
Autores: Xinyi He, Qian Liu, Mingzhe Du, Lin Yan, Zhijie Fan, Yiming Huang, Zejian Yuan, Zejun Ma
cs.AI

Resumo

A otimização do desempenho do código é crucial na engenharia de software do mundo real e essencial para sistemas de nível de produção. Embora os Modelos de Linguagem de Grande Escala (LLMs) tenham demonstrado capacidades impressionantes na geração de código e correção de bugs, sua proficiência em melhorar o desempenho do código em nível de repositório permanece amplamente inexplorada. Para abordar essa lacuna, apresentamos o SWE-Perf, o primeiro benchmark projetado especificamente para avaliar sistematicamente LLMs em tarefas de otimização de desempenho de código dentro de contextos autênticos de repositórios. O SWE-Perf compreende 140 instâncias cuidadosamente curadas, cada uma derivada de pull requests de melhoria de desempenho de repositórios populares do GitHub. Cada instância do benchmark inclui a base de código relevante, funções alvo, testes relacionados ao desempenho, patches criados por especialistas e ambientes executáveis. Por meio de uma avaliação abrangente de métodos representativos que abrangem abordagens em nível de arquivo e de repositório (por exemplo, Agentless e OpenHands), revelamos uma lacuna substancial de capacidade entre os LLMs existentes e o desempenho de otimização em nível de especialista, destacando oportunidades críticas de pesquisa neste campo emergente.
English
Code performance optimization is paramount in real-world software engineering and critical for production-level systems. While Large Language Models (LLMs) have demonstrated impressive capabilities in code generation and bug fixing, their proficiency in enhancing code performance at the repository level remains largely unexplored. To address this gap, we introduce SWE-Perf, the first benchmark specifically designed to systematically evaluate LLMs on code performance optimization tasks within authentic repository contexts. SWE-Perf comprises 140 carefully curated instances, each derived from performance-improving pull requests from popular GitHub repositories. Each benchmark instance includes the relevant codebase, target functions, performance-related tests, expert-authored patches, and executable environments. Through a comprehensive evaluation of representative methods that span file-level and repo-level approaches (e.g., Agentless and OpenHands), we reveal a substantial capability gap between existing LLMs and expert-level optimization performance, highlighting critical research opportunities in this emerging field.
PDF411July 17, 2025