SWE-fficiency: Могут ли языковые модели оптимизировать реальные репозитории под реальные рабочие нагрузки?

Аннотация

Оптимизация производительности крупномасштабных программных репозиториев требует экспертных знаний в области анализа кода и программной инженерии (ПИ) для сокращения времени выполнения при сохранении корректности программы. Однако большинство бенчмарков акцентируют внимание на том, *что* нужно исправить, а не на том, *как* это сделать. Мы представляем SWE-fficiency — бенчмарк для оценки оптимизации производительности на уровне репозитория при работе с реальными нагрузками. Наш набор включает 498 задач из девяти широко используемых репозиториев для data science, машинного обучения и HPC (например, numpy, pandas, scipy): имея полную кодовую базу и медленную рабочую нагрузку, агент должен исследовать семантику кода, локализовать узкие места и соответствующие тесты, а также создать патч, который достигает или превосходит экспертное ускорение, проходя при этом те же модульные тесты. Для обеспечения такой оценки «как исправить» наша автоматизированная система собирает pull request'ы на GitHub, содержащие правки для повышения производительности, комбинируя фильтрацию по ключевым словам, статический анализ, инструменты покрытия кода и проверку выполнения, чтобы как подтвердить базовые показатели экспертного ускорения, так и выявить соответствующие модульные тесты репозитория. Эмпирическая оценка современных агентов выявила их значительное отставание. В среднем агенты достигают менее 0.15x от экспертного ускорения: они испытывают трудности с локализацией возможностей для оптимизации, анализом выполнения кода across functions и обеспечением корректности предлагаемых правок. Мы публикуем бенчмарк и сопутствующий конвейер обработки данных для содействия исследованиям в области автоматизированной инженерии производительности и программного анализа с длинным горизонтом планирования.

English

Optimizing the performance of large-scale software repositories demands expertise in code reasoning and software engineering (SWE) to reduce runtime while preserving program correctness. However, most benchmarks emphasize what to fix rather than how to fix code. We introduce SWE-fficiency, a benchmark for evaluating repository-level performance optimization on real workloads. Our suite contains 498 tasks across nine widely used data-science, machine-learning, and HPC repositories (e.g., numpy, pandas, scipy): given a complete codebase and a slow workload, an agent must investigate code semantics, localize bottlenecks and relevant tests, and produce a patch that matches or exceeds expert speedup while passing the same unit tests. To enable this how-to-fix evaluation, our automated pipeline scrapes GitHub pull requests for performance-improving edits, combining keyword filtering, static analysis, coverage tooling, and execution validation to both confirm expert speedup baselines and identify relevant repository unit tests. Empirical evaluation of state-of-the-art agents reveals significant underperformance. On average, agents achieve less than 0.15x the expert speedup: agents struggle in localizing optimization opportunities, reasoning about execution across functions, and maintaining correctness in proposed edits. We release the benchmark and accompanying data pipeline to facilitate research on automated performance engineering and long-horizon software reasoning.

SWE-fficiency: Могут ли языковые модели оптимизировать реальные репозитории под реальные рабочие нагрузки?

SWE-fficiency: Can Language Models Optimize Real-World Repositories on Real Workloads?

Аннотация

Support