ChatPaper.aiChatPaper

SWE-fficiency: 언어 모델이 실제 워크로드에서 실전 저장소를 최적화할 수 있을까?

SWE-fficiency: Can Language Models Optimize Real-World Repositories on Real Workloads?

November 8, 2025
저자: Jeffrey Jian Ma, Milad Hashemi, Amir Yazdanbakhsh, Kevin Swersky, Ofir Press, Enhui Li, Vijay Janapa Reddi, Parthasarathy Ranganathan
cs.AI

초록

대규모 소프트웨어 저장소의 성능 최적화는 프로그램 정확성을 유지하면서 실행 시간을 단축하기 위해 코드 추론 및 소프트웨어 공학(Software Engineering, SWE) 전문 지식을 요구합니다. 그러나 대부분의 벤치마크는 코드를 '수정할 대상'보다 '수정 방법'에 중점을 두지 않습니다. 본 연구에서는 실제 워크로드에 대한 저장소 수준 성능 최적화를 평가하기 위한 벤치마크인 SWE-fficiency를 소개합니다. 저희 제품군에는 널리 사용되는 9개의 데이터 사이언스, 머신러닝, HPC 저장소(예: numpy, pandas, scipy)에 걸친 498개의 작업이 포함되어 있습니다. 완전한 코드베이스와 느린 워크로드가 주어지면, 에이전트는 코드 의미를 조사하고 병목 현상 및 관련 테스트를 지역화하며, 동일한 단위 테스트를 통과하면서 전문가의 속도 향상에 부합하거나 이를 초과하는 패치를 생성해야 합니다. 이러한 '수정 방법' 평가를 가능하게 하기 위해, 저희의 자동화된 파이프라인은 성능 향상 편집을 위한 GitHub 풀 리퀘스트를 수집하며, 키워드 필터링, 정적 분석, 커버리지 도구 및 실행 검증을 결합하여 전문가의 속도 향상 기준선을 확인하고 관련 저장소 단위 테스트를 식별합니다. 최첨단 에이전트에 대한 실증적 평가는 상당한 저성능을 보여줍니다. 평균적으로 에이전트는 전문가의 속도 향상의 0.15배 미만을 달성하는데, 이는 에이전트가 최적화 기회 지역화, 함수 간 실행 추론, 제안된 편집의 정확성 유지에 어려움을 겪기 때문입니다. 저희는 자동화된 성능 공학 및 장기적 소프트웨어 추론 연구를 촉진하기 위해 이 벤치마크와 함께 제공되는 데이터 파이프라인을 공개합니다.
English
Optimizing the performance of large-scale software repositories demands expertise in code reasoning and software engineering (SWE) to reduce runtime while preserving program correctness. However, most benchmarks emphasize what to fix rather than how to fix code. We introduce SWE-fficiency, a benchmark for evaluating repository-level performance optimization on real workloads. Our suite contains 498 tasks across nine widely used data-science, machine-learning, and HPC repositories (e.g., numpy, pandas, scipy): given a complete codebase and a slow workload, an agent must investigate code semantics, localize bottlenecks and relevant tests, and produce a patch that matches or exceeds expert speedup while passing the same unit tests. To enable this how-to-fix evaluation, our automated pipeline scrapes GitHub pull requests for performance-improving edits, combining keyword filtering, static analysis, coverage tooling, and execution validation to both confirm expert speedup baselines and identify relevant repository unit tests. Empirical evaluation of state-of-the-art agents reveals significant underperformance. On average, agents achieve less than 0.15x the expert speedup: agents struggle in localizing optimization opportunities, reasoning about execution across functions, and maintaining correctness in proposed edits. We release the benchmark and accompanying data pipeline to facilitate research on automated performance engineering and long-horizon software reasoning.
PDF42December 2, 2025