SWE-Bench Pro: AI 에이전트가 장기적 소프트웨어 엔지니어링 과제를 해결할 수 있는가?
SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?
September 21, 2025
저자: Xiang Deng, Jeff Da, Edwin Pan, Yannis Yiming He, Charles Ide, Kanak Garg, Niklas Lauffer, Andrew Park, Nitin Pasari, Chetan Rane, Karmini Sampath, Maya Krishnan, Srivatsa Kundurthy, Sean Hendryx, Zifan Wang, Chen Bo Calvin Zhang, Noah Jacobson, Bing Liu, Brad Kenstler
cs.AI
초록
우리는 SWE-BENCH [25]의 모범 사례를 기반으로 하지만, SWE-BENCH의 범위를 넘어서는 현실적이고 복잡한 기업 수준의 문제를 명시적으로 포착하도록 설계된 훨씬 더 도전적인 벤치마크인 SWE-Bench Pro를 소개합니다. SWE-BENCH PRO는 비즈니스 애플리케이션, B2B 서비스, 개발자 도구 등 다양한 분야의 41개의 활발히 유지되는 저장소에서 수집된 1,865개의 문제로 구성되어 있습니다. 이 벤치마크는 11개의 저장소에서 수집된 문제에 대해 공개적으로 접근 가능한 공개 세트, 12개의 저장소로 구성된 보류 세트, 그리고 초기 단계 스타트업과의 공식 파트너십 계약이 있는 18개의 독점 저장소로 구성된 상업용 세트로 구분됩니다. 보류 세트와 상업용 세트의 문제는 공개적으로 접근할 수 없지만, 상업용 세트에 대한 결과는 공개합니다. 우리의 벤치마크는 전문 소프트웨어 엔지니어가 완료하는 데 몇 시간에서 며칠이 걸릴 수 있는 장기적인 작업을 특징으로 하며, 종종 여러 파일에 걸친 패치와 상당한 코드 수정이 필요합니다. 모든 작업은 인간이 검증하고 해결 가능성을 보장하기 위해 충분한 컨텍스트로 보강되었습니다. 널리 사용되는 코딩 모델을 통합된 스캐폴드 하에서 평가한 결과, SWE-Bench PRO에서의 성능은 25%(Pass@1) 미만으로 나타났으며, GPT-5가 현재까지 가장 높은 점수인 23.3%를 달성했습니다. 이러한 한계를 더 잘 이해하기 위해, 수집된 에이전트 궤적에서 관찰된 실패 모드를 클러스터링하여 현재 모델이 보이는 오류 패턴을 더 명확하게 특성화했습니다. 전반적으로, SWE-BENCH PRO는 현실 세계의 소프트웨어 개발의 복잡성과 다양성을 더 충실히 포착하며, 전문가 수준에서 진정한 자율 소프트웨어 엔지니어링 에이전트를 추구하는 데 기여합니다.
English
We introduce SWE-Bench Pro, a substantially more challenging benchmark that
builds upon the best practices of SWE-BENCH [25], but is explicitly designed to
capture realistic, complex, enterprise-level problems beyond the scope of
SWE-BENCH. SWE-BENCH PRO contains 1,865 problems sourced from a diverse set of
41 actively maintained repositories spanning business applications, B2B
services, and developer tools. The benchmark is partitioned into a public set
with open access to problems sourced from 11 repositories, a held-out set of 12
repositories and a commercial set of 18 proprietary repositories where we have
formal partnership agreements with early-stage startups. Problems in the
held-out and the commercial set are not publicly accessible, but we release
results on the commercial set. Our benchmark features long-horizon tasks that
may require hours to days for a professional software engineer to complete,
often involving patches across multiple files and substantial code
modifications. All tasks are human-verified and augmented with sufficient
context to ensure resolvability. In our evaluation of widely used coding
models, under a unified scaffold, we observe that their performance on
SWE-Bench PRO remains below 25% (Pass@1), with GPT-5 achieving the highest
score to date at 23.3%. To better understand these limitations, we cluster the
failure modes observed in the collected agent trajectories for a clearer
characterization of the error patterns exhibited by current models. Overall,
SWE-BENCH PRO provides a contamination-resistant testbed that more faithfully
captures the complexity and diversity of real-world software development,
advancing the pursuit of truly autonomous software engineering agents at a
professional level.