SWE-Bench++: Фреймворк для масштабируемого создания бенчмарков в области разработки программного обеспечения из репозиториев с открытым исходным кодом

Аннотация

Бенчмарки, такие как SWE-bench, стандартизировали оценку больших языковых моделей (LLM) на задачах программной инженерии уровня репозитория. Однако эти усилия остаются ограниченными из-за ручной курации, статических наборов данных и фокуса на исправлении ошибок в Python. Мы представляем SWE-Bench++ — автоматизированную платформу, которая генерирует задачи по написанию кода уровня репозитория из проектов GitHub с открытым исходным кодом. В отличие от синтетических подходов, наш пайплайн собирает живые пул-реквесты, чтобы охватить как исправления ошибок, так и запросы на новые функции на 11 языках программирования. SWE-Bench++ преобразует пул-реквесты (PR) GitHub в воспроизводимые, основанные на выполнении задачи через четыре этапа: программный сбор, синтез окружения, извлечение тестовых оракулов и обеспечение качества. Финальный шаг синтеза траекторий с подсказками преобразует экземпляры, с которыми не справляются сильные модели, в обучающие траектории. Наш первоначальный бенчмарк состоит из 11 133 экземпляров из 3 971 репозитория на 11 языках. На подмножестве из 1 782 экземпляров этого бенчмарка современные самые мощные модели показывают следующие результаты: claude-sonnet-4.5 достигает 36.20% pass@10, gpt-5-2025-08-07 — 34.57%, gemini/gemini-2.5-pro — 24.92%, а gpt-4o — 16.89%. Мы также демонстрируем полезность нашего набора данных, показывая, что дообучение на экземплярах SWE-Bench++ дает измеримое улучшение результатов на мультиязычном бенчмарке SWE-bench. SWE-Bench++ предоставляет масштабируемый, мультиязычный бенчмарк для оценки и улучшения генерации кода уровня репозитория.

English

Benchmarks like SWE-bench have standardized the evaluation of Large Language Models (LLMs) on repository-level software engineering tasks. However, these efforts remain limited by manual curation, static datasets, and a focus on Python-based bug fixes. We introduce SWE-Bench++, an automated framework that generates repository-level coding tasks from open-source GitHub projects. Unlike synthetic approaches, our pipeline harvests live pull requests to cover both bug fixes and feature requests across 11 languages. SWE-Bench++ turns GitHub pull requests (PRs) into reproducible, execution-based tasks via four stages: programmatic sourcing, environment synthesis, test oracle extraction, and quality assurance. A final hint-guided trajectory synthesis step converts instances that strong models fail on into training trajectories. Our initial benchmark consists of 11,133 instances from 3,971 repositories across 11 languages. On a subset of 1,782 instances of this benchmark, today's strongest models perform as follows: claude-sonnet-4.5 achieves 36.20% pass@10, gpt-5-2025-08-07 34.57%, gemini/gemini-2.5-pro 24.92%, and gpt-4o 16.89%. We further demonstrate the utility of our dataset by showing that fine-tuning on SWE-Bench++ instances yields measurable improvements on the SWE-bench Multilingual benchmark. SWE-Bench++ provides a scalable, multilingual benchmark for evaluating and improving repository-level code generation.

SWE-Bench++: Фреймворк для масштабируемого создания бенчмарков в области разработки программного обеспечения из репозиториев с открытым исходным кодом

SWE-Bench++: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source Repositories

Аннотация

Support