SWE-Bench Pro : Les agents IA peuvent-ils résoudre des tâches d'ingénierie logicielle à long terme ?

papers.abstract

Nous présentons SWE-Bench Pro, un benchmark considérablement plus exigeant qui s'appuie sur les meilleures pratiques de SWE-BENCH [25], mais qui est explicitement conçu pour capturer des problèmes réalistes, complexes et de niveau entreprise, au-delà de la portée de SWE-BENCH. SWE-BENCH PRO contient 1 865 problèmes issus d'un ensemble diversifié de 41 dépôts activement maintenus, couvrant des applications métier, des services B2B et des outils pour développeurs. Le benchmark est divisé en un ensemble public avec un accès ouvert aux problèmes provenant de 11 dépôts, un ensemble réservé de 12 dépôts et un ensemble commercial de 18 dépôts propriétaires pour lesquels nous avons des accords de partenariat formels avec des startups en phase initiale. Les problèmes des ensembles réservé et commercial ne sont pas accessibles au public, mais nous publions les résultats sur l'ensemble commercial. Notre benchmark propose des tâches à long terme qui peuvent nécessiter des heures à plusieurs jours pour un ingénieur logiciel professionnel, impliquant souvent des modifications de code substantielles et des correctifs sur plusieurs fichiers. Toutes les tâches sont vérifiées par des humains et enrichies d'un contexte suffisant pour garantir leur résolubilité. Dans notre évaluation des modèles de codage largement utilisés, sous un cadre unifié, nous observons que leurs performances sur SWE-Bench PRO restent inférieures à 25 % (Pass@1), avec GPT-5 atteignant le score le plus élevé à ce jour à 23,3 %. Pour mieux comprendre ces limitations, nous regroupons les modes d'échec observés dans les trajectoires des agents collectées afin de caractériser plus clairement les schémas d'erreurs des modèles actuels. Globalement, SWE-BENCH PRO offre un environnement de test résistant à la contamination qui capture plus fidèlement la complexité et la diversité du développement logiciel réel, faisant progresser la quête d'agents de génie logiciel véritablement autonomes à un niveau professionnel.

English

We introduce SWE-Bench Pro, a substantially more challenging benchmark that builds upon the best practices of SWE-BENCH [25], but is explicitly designed to capture realistic, complex, enterprise-level problems beyond the scope of SWE-BENCH. SWE-BENCH PRO contains 1,865 problems sourced from a diverse set of 41 actively maintained repositories spanning business applications, B2B services, and developer tools. The benchmark is partitioned into a public set with open access to problems sourced from 11 repositories, a held-out set of 12 repositories and a commercial set of 18 proprietary repositories where we have formal partnership agreements with early-stage startups. Problems in the held-out and the commercial set are not publicly accessible, but we release results on the commercial set. Our benchmark features long-horizon tasks that may require hours to days for a professional software engineer to complete, often involving patches across multiple files and substantial code modifications. All tasks are human-verified and augmented with sufficient context to ensure resolvability. In our evaluation of widely used coding models, under a unified scaffold, we observe that their performance on SWE-Bench PRO remains below 25% (Pass@1), with GPT-5 achieving the highest score to date at 23.3%. To better understand these limitations, we cluster the failure modes observed in the collected agent trajectories for a clearer characterization of the error patterns exhibited by current models. Overall, SWE-BENCH PRO provides a contamination-resistant testbed that more faithfully captures the complexity and diversity of real-world software development, advancing the pursuit of truly autonomous software engineering agents at a professional level.

SWE-Bench Pro : Les agents IA peuvent-ils résoudre des tâches d'ingénierie logicielle à long terme ?

SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?

papers.abstract

Support