SWE-Perf: Могут ли языковые модели оптимизировать производительность кода в реальных репозиториях?
SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?
July 16, 2025
Авторы: Xinyi He, Qian Liu, Mingzhe Du, Lin Yan, Zhijie Fan, Yiming Huang, Zejian Yuan, Zejun Ma
cs.AI
Аннотация
Оптимизация производительности кода имеет первостепенное значение в реальной разработке программного обеспечения и критически важна для производственных систем. Хотя крупные языковые модели (LLM) продемонстрировали впечатляющие возможности в генерации кода и исправлении ошибок, их способность улучшать производительность кода на уровне репозитория остаётся в значительной степени неисследованной. Чтобы устранить этот пробел, мы представляем SWE-Perf — первый бенчмарк, специально разработанный для систематической оценки LLM в задачах оптимизации производительности кода в контексте реальных репозиториев. SWE-Perf включает 140 тщательно отобранных примеров, каждый из которых основан на пул-реквестах, направленных на улучшение производительности, из популярных репозиториев GitHub. Каждый пример бенчмарка содержит соответствующий код, целевые функции, тесты, связанные с производительностью, патчи, созданные экспертами, и исполняемые среды. В ходе всесторонней оценки репрезентативных методов, охватывающих подходы на уровне файлов и репозиториев (например, Agentless и OpenHands), мы выявили значительный разрыв между существующими LLM и экспертным уровнем оптимизации, подчеркивая важные исследовательские возможности в этой развивающейся области.
English
Code performance optimization is paramount in real-world software engineering
and critical for production-level systems. While Large Language Models (LLMs)
have demonstrated impressive capabilities in code generation and bug fixing,
their proficiency in enhancing code performance at the repository level remains
largely unexplored. To address this gap, we introduce SWE-Perf, the first
benchmark specifically designed to systematically evaluate LLMs on code
performance optimization tasks within authentic repository contexts. SWE-Perf
comprises 140 carefully curated instances, each derived from
performance-improving pull requests from popular GitHub repositories. Each
benchmark instance includes the relevant codebase, target functions,
performance-related tests, expert-authored patches, and executable
environments. Through a comprehensive evaluation of representative methods that
span file-level and repo-level approaches (e.g., Agentless and OpenHands), we
reveal a substantial capability gap between existing LLMs and expert-level
optimization performance, highlighting critical research opportunities in this
emerging field.