SWE-rebench: Автоматизированный конвейер для сбора задач и очищенной оценки агентов в области разработки программного обеспечения
SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents
May 26, 2025
Авторы: Ibragim Badertdinov, Alexander Golubev, Maksim Nekrashevich, Anton Shevtsov, Simon Karasik, Andrei Andriushchenko, Maria Trofimova, Daria Litvintseva, Boris Yangel
cs.AI
Аннотация
Агенты на основе больших языковых моделей (LLM) продемонстрировали многообещающие возможности в растущем спектре задач в области разработки программного обеспечения (SWE). Однако развитие этой области сталкивается с двумя ключевыми проблемами. Во-первых, высококачественные обучающие данные ограничены, особенно данные, отражающие реальные сценарии SWE, где агенты должны взаимодействовать с средами разработки, выполнять код и адаптировать свое поведение на основе результатов своих действий. Существующие наборы данных либо ограничены одношаговой генерацией кода, либо представляют собой небольшие, вручную отобранные коллекции интерактивных задач, что не обеспечивает ни масштаба, ни разнообразия. Во-вторых, отсутствие свежих интерактивных задач SWE затрудняет оценку быстро улучшающихся моделей, поскольку статические бенчмарки быстро устаревают из-за проблем с контаминацией. Для решения этих ограничений мы представляем новый автоматизированный и масштабируемый конвейер для непрерывного извлечения реальных интерактивных задач SWE из различных репозиториев GitHub. Используя этот конвейер, мы создаем SWE-rebench — публичный набор данных, содержащий более 21 000 интерактивных задач SWE на основе Python, подходящих для обучения с подкреплением агентов SWE в масштабе. Кроме того, мы используем постоянный поток свежих задач, собранных с использованием методологии SWE-rebench, для создания бенчмарка, свободного от контаминации, для агентной разработки программного обеспечения. Мы сравниваем результаты различных LLM на этом бенчмарке с результатами на SWE-bench Verified и показываем, что производительность некоторых языковых моделей может быть завышена из-за проблем с контаминацией.
English
LLM-based agents have shown promising capabilities in a growing range of
software engineering (SWE) tasks. However, advancing this field faces two
critical challenges. First, high-quality training data is scarce, especially
data that reflects real-world SWE scenarios, where agents must interact with
development environments, execute code and adapt behavior based on the outcomes
of their actions. Existing datasets are either limited to one-shot code
generation or comprise small, manually curated collections of interactive
tasks, lacking both scale and diversity. Second, the lack of fresh interactive
SWE tasks affects evaluation of rapidly improving models, as static benchmarks
quickly become outdated due to contamination issues. To address these
limitations, we introduce a novel, automated, and scalable pipeline to
continuously extract real-world interactive SWE tasks from diverse GitHub
repositories. Using this pipeline, we construct SWE-rebench, a public dataset
comprising over 21,000 interactive Python-based SWE tasks, suitable for
reinforcement learning of SWE agents at scale. Additionally, we use continuous
supply of fresh tasks collected using SWE-rebench methodology to build a
contamination-free benchmark for agentic software engineering. We compare
results of various LLMs on this benchmark to results on SWE-bench Verified and
show that performance of some language models might be inflated due to
contamination issues.Summary
AI-Generated Summary