SWE-rebench V2: Масштабируемая коллекция задач по программной инженерии, не зависящая от языка программирования

Аннотация

Агенты программной инженерии (SWE) стремительно совершенствуются, и последние достижения в значительной степени обусловлены обучением с подкреплением (RL). Однако обучение RL ограничено дефицитом крупномасштабных наборов задач с воспроизводимыми средами выполнения и надежными наборами тестов. Хотя появляется все больше бенчмарков, наборы данных, пригодные для обучения, остаются ограниченными по масштабу и разнообразию или часто ориентированы на ограниченный набор экосистем языков с высокими ресурсами. Мы представляем SWE-rebench V2, языково-независимый автоматизированный конвейер для сбора исполняемых практических задач SWE и масштабируемого построения сред обучения RL. Конвейер синтезирует специфичные для репозитория процедуры установки и тестирования с помощью интерактивного агента настройки и отфильтровывает некорректные экземпляры с использованием ансамбля LLM-судей, валидированного по аннотациям SWE-bench, проверенным человеком. С помощью этого конвейера мы создали набор данных из 32 000+ задач, охватывающих 20 языков и 3 600+ репозиториев, с предварительно собранными образами для воспроизводимого выполнения. Для дальнейшего масштабирования данных обучения мы дополнительно выпускаем 120 000+ задач с инструкциями по установке, тестами "из失败 в успех" и богатыми метаданными, где формулировка проблемы генерируется на основе описания исходного pull request'а. Мы проверяем собранные экземпляры с помощью диагностического исследования, охватывающего подмножество задач на пяти языках программирования для семи популярных моделей, и предоставляем метаданные на уровне экземпляра, которые помечают распространенные confounding-факторы, такие как излишне строгие тесты и нечеткие описания. Мы публикуем наборы данных, код для сбора и выполнения, а также сопутствующие артефакты, чтобы обеспечить крупномасштабное обучение агентов SWE для различных языков и репозиториев.

English

Software engineering agents (SWE) are improving rapidly, with recent gains largely driven by reinforcement learning (RL). However, RL training is constrained by the scarcity of large-scale task collections with reproducible execution environments and reliable test suites. Although a growing number of benchmarks have emerged, datasets suitable for training remain limited in scale and diversity or often target a limited set of high-resource language ecosystems. We introduce SWE-rebench V2, a language-agnostic automated pipeline for harvesting executable real-world SWE tasks and constructing RL training environments at scale. The pipeline synthesizes repository-specific installation and test procedures via an interactive setup agent, and filters unsound instances using an ensemble of LLM judges, validated against human-verified SWE-bench annotations. Using this pipeline, we construct a dataset of 32,000+ tasks spanning 20 languages and 3,600+ repositories, with pre-built images for reproducible execution. To further scale training data, we additionally release 120,000+ tasks with installation instructions, fail-to-pass tests and rich metadata, where the problem statement is generated based on the original pull request description. We validate the collected instances through a diagnostic study that covers a subset of tasks in five programming languages across seven popular models, and provide instance-level metadata that flags common confounders such as overly restrictive tests and underspecified descriptions. We release the datasets, the collection and execution code, and associated artifacts to enable large-scale training of SWE agents across diverse languages and repositories.

SWE-rebench V2: Масштабируемая коллекция задач по программной инженерии, не зависящая от языка программирования

SWE-rebench V2: Language-Agnostic SWE Task Collection at Scale

Аннотация

Support