SWE-Bench Pro: Kunnen AI-agents langetermijnsoftware-engineeringtaken oplossen?
SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?
September 21, 2025
Auteurs: Xiang Deng, Jeff Da, Edwin Pan, Yannis Yiming He, Charles Ide, Kanak Garg, Niklas Lauffer, Andrew Park, Nitin Pasari, Chetan Rane, Karmini Sampath, Maya Krishnan, Srivatsa Kundurthy, Sean Hendryx, Zifan Wang, Chen Bo Calvin Zhang, Noah Jacobson, Bing Liu, Brad Kenstler
cs.AI
Samenvatting
We introduceren SWE-Bench Pro, een aanzienlijk uitdagender benchmark die voortbouwt op de best practices van SWE-BENCH [25], maar expliciet is ontworpen om realistische, complexe, ondernemingsniveau problemen te omvatten die buiten het bereik van SWE-BENCH vallen. SWE-BENCH PRO bevat 1.865 problemen afkomstig uit een diverse set van 41 actief onderhouden repositories, variërend van zakelijke applicaties, B2B-diensten en ontwikkelaarstools. De benchmark is onderverdeeld in een openbare set met vrije toegang tot problemen afkomstig uit 11 repositories, een afgezonderde set van 12 repositories en een commerciële set van 18 propriëtaire repositories waarmee we formele partnerschapsovereenkomsten hebben met startende bedrijven. Problemen in de afgezonderde en de commerciële set zijn niet publiekelijk toegankelijk, maar we publiceren resultaten over de commerciële set. Onze benchmark bevat taken met een lange tijdsduur die uren tot dagen kunnen kosten voor een professionele software engineer om te voltooien, vaak met patches over meerdere bestanden en aanzienlijke codewijzigingen. Alle taken zijn door mensen geverifieerd en aangevuld met voldoende context om oplosbaarheid te garanderen. In onze evaluatie van veelgebruikte coderingsmodellen, onder een uniforme structuur, observeren we dat hun prestaties op SWE-Bench PRO onder de 25% blijven (Pass@1), waarbij GPT-5 tot nu toe de hoogste score behaalt met 23,3%. Om deze beperkingen beter te begrijpen, clusteren we de faalmodi die worden waargenomen in de verzamelde agenttrajecten voor een duidelijkere karakterisering van de foutpatronen die huidige modellen vertonen. Over het algemeen biedt SWE-BENCH PRO een vervuiling-resistent testplatform dat de complexiteit en diversiteit van echte softwareontwikkeling nauwkeuriger weergeeft, en bevordert het de zoektocht naar echt autonome software engineering agents op professioneel niveau.
English
We introduce SWE-Bench Pro, a substantially more challenging benchmark that
builds upon the best practices of SWE-BENCH [25], but is explicitly designed to
capture realistic, complex, enterprise-level problems beyond the scope of
SWE-BENCH. SWE-BENCH PRO contains 1,865 problems sourced from a diverse set of
41 actively maintained repositories spanning business applications, B2B
services, and developer tools. The benchmark is partitioned into a public set
with open access to problems sourced from 11 repositories, a held-out set of 12
repositories and a commercial set of 18 proprietary repositories where we have
formal partnership agreements with early-stage startups. Problems in the
held-out and the commercial set are not publicly accessible, but we release
results on the commercial set. Our benchmark features long-horizon tasks that
may require hours to days for a professional software engineer to complete,
often involving patches across multiple files and substantial code
modifications. All tasks are human-verified and augmented with sufficient
context to ensure resolvability. In our evaluation of widely used coding
models, under a unified scaffold, we observe that their performance on
SWE-Bench PRO remains below 25% (Pass@1), with GPT-5 achieving the highest
score to date at 23.3%. To better understand these limitations, we cluster the
failure modes observed in the collected agent trajectories for a clearer
characterization of the error patterns exhibited by current models. Overall,
SWE-BENCH PRO provides a contamination-resistant testbed that more faithfully
captures the complexity and diversity of real-world software development,
advancing the pursuit of truly autonomous software engineering agents at a
professional level.