SWE-Bench Pro: Gli agenti AI possono risolvere compiti di ingegneria del software a lungo termine?

Abstract

Presentiamo SWE-Bench Pro, un benchmark sostanzialmente più impegnativo che si basa sulle migliori pratiche di SWE-BENCH [25], ma è esplicitamente progettato per catturare problemi realistici, complessi e di livello aziendale che vanno oltre lo scopo di SWE-BENCH. SWE-BENCH PRO contiene 1.865 problemi provenienti da un insieme diversificato di 41 repository attivamente mantenuti, che spaziano tra applicazioni aziendali, servizi B2B e strumenti per sviluppatori. Il benchmark è suddiviso in un set pubblico con accesso aperto ai problemi provenienti da 11 repository, un set riservato di 12 repository e un set commerciale di 18 repository proprietari per i quali abbiamo accordi di partnership formali con startup in fase iniziale. I problemi nei set riservato e commerciale non sono accessibili pubblicamente, ma rilasciamo i risultati sul set commerciale. Il nostro benchmark include task a lungo termine che possono richiedere ore o giorni per essere completati da un ingegnere del software professionale, spesso coinvolgendo patch su più file e modifiche sostanziali al codice. Tutti i task sono verificati da esseri umani e arricchiti con un contesto sufficiente per garantirne la risolvibilità. Nella nostra valutazione di modelli di codifica ampiamente utilizzati, sotto un'impalcatura unificata, osserviamo che le loro prestazioni su SWE-Bench PRO rimangono al di sotto del 25% (Pass@1), con GPT-5 che raggiunge il punteggio più alto finora al 23,3%. Per comprendere meglio queste limitazioni, raggruppiamo le modalità di fallimento osservate nelle traiettorie degli agenti raccolte per una caratterizzazione più chiara dei modelli di errore esibiti dai modelli attuali. Nel complesso, SWE-BENCH PRO fornisce un banco di prova resistente alla contaminazione che cattura in modo più fedele la complessità e la diversità dello sviluppo software nel mondo reale, avanzando la ricerca di agenti di ingegneria del software veramente autonomi a livello professionale.

English

We introduce SWE-Bench Pro, a substantially more challenging benchmark that builds upon the best practices of SWE-BENCH [25], but is explicitly designed to capture realistic, complex, enterprise-level problems beyond the scope of SWE-BENCH. SWE-BENCH PRO contains 1,865 problems sourced from a diverse set of 41 actively maintained repositories spanning business applications, B2B services, and developer tools. The benchmark is partitioned into a public set with open access to problems sourced from 11 repositories, a held-out set of 12 repositories and a commercial set of 18 proprietary repositories where we have formal partnership agreements with early-stage startups. Problems in the held-out and the commercial set are not publicly accessible, but we release results on the commercial set. Our benchmark features long-horizon tasks that may require hours to days for a professional software engineer to complete, often involving patches across multiple files and substantial code modifications. All tasks are human-verified and augmented with sufficient context to ensure resolvability. In our evaluation of widely used coding models, under a unified scaffold, we observe that their performance on SWE-Bench PRO remains below 25% (Pass@1), with GPT-5 achieving the highest score to date at 23.3%. To better understand these limitations, we cluster the failure modes observed in the collected agent trajectories for a clearer characterization of the error patterns exhibited by current models. Overall, SWE-BENCH PRO provides a contamination-resistant testbed that more faithfully captures the complexity and diversity of real-world software development, advancing the pursuit of truly autonomous software engineering agents at a professional level.

SWE-Bench Pro: Gli agenti AI possono risolvere compiti di ingegneria del software a lungo termine?

SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?

Abstract

Support