SWE-Bench Pro: Способны ли ИИ-агенты решать долгосрочные задачи в области разработки программного обеспечения?
SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?
September 21, 2025
Авторы: Xiang Deng, Jeff Da, Edwin Pan, Yannis Yiming He, Charles Ide, Kanak Garg, Niklas Lauffer, Andrew Park, Nitin Pasari, Chetan Rane, Karmini Sampath, Maya Krishnan, Srivatsa Kundurthy, Sean Hendryx, Zifan Wang, Chen Bo Calvin Zhang, Noah Jacobson, Bing Liu, Brad Kenstler
cs.AI
Аннотация
Мы представляем SWE-Bench Pro — значительно более сложный бенчмарк, который основывается на лучших практиках SWE-BENCH [25], но специально разработан для охвата реалистичных, сложных, корпоративных задач, выходящих за рамки возможностей SWE-BENCH. SWE-BENCH PRO содержит 1 865 задач, собранных из 41 активно поддерживаемого репозитория, охватывающих бизнес-приложения, B2B-сервисы и инструменты для разработчиков. Бенчмарк разделен на публичный набор с открытым доступом к задачам из 11 репозиториев, закрытый набор из 12 репозиториев и коммерческий набор из 18 проприетарных репозиториев, с которыми у нас заключены официальные партнерские соглашения с начинающими стартапами. Задачи из закрытого и коммерческого наборов не доступны публично, но мы публикуем результаты по коммерческому набору. Наш бенчмарк включает долгосрочные задачи, выполнение которых может занимать от нескольких часов до нескольких дней для профессионального инженера-программиста, часто требующие изменений в нескольких файлах и значительных модификаций кода. Все задачи проверены людьми и дополнены достаточным контекстом для обеспечения их разрешимости. В нашей оценке широко используемых моделей генерации кода, проведенной в рамках единой структуры, мы наблюдаем, что их производительность на SWE-Bench PRO остается ниже 25% (Pass@1), при этом GPT-5 достигает наивысшего на данный момент результата в 23,3%. Для лучшего понимания этих ограничений мы группируем наблюдаемые режимы сбоев в собранных траекториях агентов, чтобы более четко охарактеризовать типичные ошибки современных моделей. В целом, SWE-BENCH PRO предоставляет устойчивую к загрязнению тестовую среду, которая более точно отражает сложность и разнообразие реальной разработки программного обеспечения, продвигая стремление к созданию по-настоящему автономных агентов для профессиональной инженерной разработки.
English
We introduce SWE-Bench Pro, a substantially more challenging benchmark that
builds upon the best practices of SWE-BENCH [25], but is explicitly designed to
capture realistic, complex, enterprise-level problems beyond the scope of
SWE-BENCH. SWE-BENCH PRO contains 1,865 problems sourced from a diverse set of
41 actively maintained repositories spanning business applications, B2B
services, and developer tools. The benchmark is partitioned into a public set
with open access to problems sourced from 11 repositories, a held-out set of 12
repositories and a commercial set of 18 proprietary repositories where we have
formal partnership agreements with early-stage startups. Problems in the
held-out and the commercial set are not publicly accessible, but we release
results on the commercial set. Our benchmark features long-horizon tasks that
may require hours to days for a professional software engineer to complete,
often involving patches across multiple files and substantial code
modifications. All tasks are human-verified and augmented with sufficient
context to ensure resolvability. In our evaluation of widely used coding
models, under a unified scaffold, we observe that their performance on
SWE-Bench PRO remains below 25% (Pass@1), with GPT-5 achieving the highest
score to date at 23.3%. To better understand these limitations, we cluster the
failure modes observed in the collected agent trajectories for a clearer
characterization of the error patterns exhibited by current models. Overall,
SWE-BENCH PRO provides a contamination-resistant testbed that more faithfully
captures the complexity and diversity of real-world software development,
advancing the pursuit of truly autonomous software engineering agents at a
professional level.