SWE-Bench Pro: ¿Pueden los agentes de IA resolver tareas de ingeniería de software de largo plazo?
SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?
September 21, 2025
Autores: Xiang Deng, Jeff Da, Edwin Pan, Yannis Yiming He, Charles Ide, Kanak Garg, Niklas Lauffer, Andrew Park, Nitin Pasari, Chetan Rane, Karmini Sampath, Maya Krishnan, Srivatsa Kundurthy, Sean Hendryx, Zifan Wang, Chen Bo Calvin Zhang, Noah Jacobson, Bing Liu, Brad Kenstler
cs.AI
Resumen
Presentamos SWE-Bench Pro, un benchmark sustancialmente más desafiante que se basa en las mejores prácticas de SWE-BENCH [25], pero que está explícitamente diseñado para capturar problemas realistas, complejos y de nivel empresarial que van más allá del alcance de SWE-BENCH. SWE-BENCH PRO contiene 1,865 problemas obtenidos de un conjunto diverso de 41 repositorios activamente mantenidos que abarcan aplicaciones empresariales, servicios B2B y herramientas para desarrolladores. El benchmark está dividido en un conjunto público con acceso abierto a problemas obtenidos de 11 repositorios, un conjunto reservado de 12 repositorios y un conjunto comercial de 18 repositorios propietarios donde tenemos acuerdos formales de colaboración con startups en etapas iniciales. Los problemas en el conjunto reservado y el conjunto comercial no son accesibles públicamente, pero publicamos resultados sobre el conjunto comercial. Nuestro benchmark incluye tareas de largo plazo que pueden requerir horas o días para que un ingeniero de software profesional las complete, a menudo involucrando parches en múltiples archivos y modificaciones sustanciales de código. Todas las tareas están verificadas por humanos y complementadas con suficiente contexto para garantizar su resolución. En nuestra evaluación de modelos de codificación ampliamente utilizados, bajo un esquema unificado, observamos que su rendimiento en SWE-Bench PRO se mantiene por debajo del 25% (Pass@1), con GPT-5 logrando la puntuación más alta hasta la fecha con un 23.3%. Para comprender mejor estas limitaciones, agrupamos los modos de fallo observados en las trayectorias de los agentes recopiladas, obteniendo una caracterización más clara de los patrones de error exhibidos por los modelos actuales. En general, SWE-BENCH PRO proporciona un entorno de prueba resistente a la contaminación que captura de manera más fiel la complejidad y diversidad del desarrollo de software en el mundo real, avanzando en la búsqueda de agentes de ingeniería de software verdaderamente autónomos a nivel profesional.
English
We introduce SWE-Bench Pro, a substantially more challenging benchmark that
builds upon the best practices of SWE-BENCH [25], but is explicitly designed to
capture realistic, complex, enterprise-level problems beyond the scope of
SWE-BENCH. SWE-BENCH PRO contains 1,865 problems sourced from a diverse set of
41 actively maintained repositories spanning business applications, B2B
services, and developer tools. The benchmark is partitioned into a public set
with open access to problems sourced from 11 repositories, a held-out set of 12
repositories and a commercial set of 18 proprietary repositories where we have
formal partnership agreements with early-stage startups. Problems in the
held-out and the commercial set are not publicly accessible, but we release
results on the commercial set. Our benchmark features long-horizon tasks that
may require hours to days for a professional software engineer to complete,
often involving patches across multiple files and substantial code
modifications. All tasks are human-verified and augmented with sufficient
context to ensure resolvability. In our evaluation of widely used coding
models, under a unified scaffold, we observe that their performance on
SWE-Bench PRO remains below 25% (Pass@1), with GPT-5 achieving the highest
score to date at 23.3%. To better understand these limitations, we cluster the
failure modes observed in the collected agent trajectories for a clearer
characterization of the error patterns exhibited by current models. Overall,
SWE-BENCH PRO provides a contamination-resistant testbed that more faithfully
captures the complexity and diversity of real-world software development,
advancing the pursuit of truly autonomous software engineering agents at a
professional level.