SWE-Bench Pro: Способны ли ИИ-агенты решать долгосрочные задачи в области разработки программного обеспечения?

Аннотация

Мы представляем SWE-Bench Pro — значительно более сложный бенчмарк, который основывается на лучших практиках SWE-BENCH [25], но специально разработан для охвата реалистичных, сложных, корпоративных задач, выходящих за рамки возможностей SWE-BENCH. SWE-BENCH PRO содержит 1 865 задач, собранных из 41 активно поддерживаемого репозитория, охватывающих бизнес-приложения, B2B-сервисы и инструменты для разработчиков. Бенчмарк разделен на публичный набор с открытым доступом к задачам из 11 репозиториев, закрытый набор из 12 репозиториев и коммерческий набор из 18 проприетарных репозиториев, с которыми у нас заключены официальные партнерские соглашения с начинающими стартапами. Задачи из закрытого и коммерческого наборов не доступны публично, но мы публикуем результаты по коммерческому набору. Наш бенчмарк включает долгосрочные задачи, выполнение которых может занимать от нескольких часов до нескольких дней для профессионального инженера-программиста, часто требующие изменений в нескольких файлах и значительных модификаций кода. Все задачи проверены людьми и дополнены достаточным контекстом для обеспечения их разрешимости. В нашей оценке широко используемых моделей генерации кода, проведенной в рамках единой структуры, мы наблюдаем, что их производительность на SWE-Bench PRO остается ниже 25% (Pass@1), при этом GPT-5 достигает наивысшего на данный момент результата в 23,3%. Для лучшего понимания этих ограничений мы группируем наблюдаемые режимы сбоев в собранных траекториях агентов, чтобы более четко охарактеризовать типичные ошибки современных моделей. В целом, SWE-BENCH PRO предоставляет устойчивую к загрязнению тестовую среду, которая более точно отражает сложность и разнообразие реальной разработки программного обеспечения, продвигая стремление к созданию по-настоящему автономных агентов для профессиональной инженерной разработки.

English

We introduce SWE-Bench Pro, a substantially more challenging benchmark that builds upon the best practices of SWE-BENCH [25], but is explicitly designed to capture realistic, complex, enterprise-level problems beyond the scope of SWE-BENCH. SWE-BENCH PRO contains 1,865 problems sourced from a diverse set of 41 actively maintained repositories spanning business applications, B2B services, and developer tools. The benchmark is partitioned into a public set with open access to problems sourced from 11 repositories, a held-out set of 12 repositories and a commercial set of 18 proprietary repositories where we have formal partnership agreements with early-stage startups. Problems in the held-out and the commercial set are not publicly accessible, but we release results on the commercial set. Our benchmark features long-horizon tasks that may require hours to days for a professional software engineer to complete, often involving patches across multiple files and substantial code modifications. All tasks are human-verified and augmented with sufficient context to ensure resolvability. In our evaluation of widely used coding models, under a unified scaffold, we observe that their performance on SWE-Bench PRO remains below 25% (Pass@1), with GPT-5 achieving the highest score to date at 23.3%. To better understand these limitations, we cluster the failure modes observed in the collected agent trajectories for a clearer characterization of the error patterns exhibited by current models. Overall, SWE-BENCH PRO provides a contamination-resistant testbed that more faithfully captures the complexity and diversity of real-world software development, advancing the pursuit of truly autonomous software engineering agents at a professional level.