SWE-Bench Pro: Agentes de IA Podem Resolver Tarefas de Engenharia de Software de Longo Prazo?

Resumo

Apresentamos o SWE-Bench Pro, um benchmark substancialmente mais desafiador que se baseia nas melhores práticas do SWE-BENCH [25], mas foi explicitamente projetado para capturar problemas realistas, complexos e de nível empresarial que vão além do escopo do SWE-BENCH. O SWE-BENCH PRO contém 1.865 problemas extraídos de um conjunto diversificado de 41 repositórios ativamente mantidos, abrangendo aplicativos de negócios, serviços B2B e ferramentas de desenvolvimento. O benchmark é dividido em um conjunto público com acesso aberto a problemas provenientes de 11 repositórios, um conjunto reservado de 12 repositórios e um conjunto comercial de 18 repositórios proprietários, onde temos acordos formais de parceria com startups em estágio inicial. Os problemas nos conjuntos reservado e comercial não são acessíveis publicamente, mas divulgamos os resultados do conjunto comercial. Nosso benchmark apresenta tarefas de longo prazo que podem levar horas ou dias para serem concluídas por um engenheiro de software profissional, muitas vezes envolvendo alterações em vários arquivos e modificações substanciais de código. Todas as tarefas são verificadas por humanos e complementadas com contexto suficiente para garantir sua resolução. Em nossa avaliação de modelos de codificação amplamente utilizados, sob uma estrutura unificada, observamos que seu desempenho no SWE-Bench PRO permanece abaixo de 25% (Pass@1), com o GPT-5 alcançando a pontuação mais alta até o momento, de 23,3%. Para entender melhor essas limitações, agrupamos os modos de falha observados nas trajetórias dos agentes coletadas, a fim de caracterizar mais claramente os padrões de erro exibidos pelos modelos atuais. No geral, o SWE-BENCH PRO oferece um ambiente de teste resistente à contaminação que captura de forma mais fiel a complexidade e a diversidade do desenvolvimento de software no mundo real, avançando na busca por agentes de engenharia de software verdadeiramente autônomos em um nível profissional.

English

We introduce SWE-Bench Pro, a substantially more challenging benchmark that builds upon the best practices of SWE-BENCH [25], but is explicitly designed to capture realistic, complex, enterprise-level problems beyond the scope of SWE-BENCH. SWE-BENCH PRO contains 1,865 problems sourced from a diverse set of 41 actively maintained repositories spanning business applications, B2B services, and developer tools. The benchmark is partitioned into a public set with open access to problems sourced from 11 repositories, a held-out set of 12 repositories and a commercial set of 18 proprietary repositories where we have formal partnership agreements with early-stage startups. Problems in the held-out and the commercial set are not publicly accessible, but we release results on the commercial set. Our benchmark features long-horizon tasks that may require hours to days for a professional software engineer to complete, often involving patches across multiple files and substantial code modifications. All tasks are human-verified and augmented with sufficient context to ensure resolvability. In our evaluation of widely used coding models, under a unified scaffold, we observe that their performance on SWE-Bench PRO remains below 25% (Pass@1), with GPT-5 achieving the highest score to date at 23.3%. To better understand these limitations, we cluster the failure modes observed in the collected agent trajectories for a clearer characterization of the error patterns exhibited by current models. Overall, SWE-BENCH PRO provides a contamination-resistant testbed that more faithfully captures the complexity and diversity of real-world software development, advancing the pursuit of truly autonomous software engineering agents at a professional level.

SWE-Bench Pro: Agentes de IA Podem Resolver Tarefas de Engenharia de Software de Longo Prazo?

SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?

Resumo

Support