SWE-rebench: 소프트웨어 엔지니어링 에이전트를 위한 작업 수집 및 오염 제거 평가를 위한 자동화된 파이프라인
SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents
May 26, 2025
저자: Ibragim Badertdinov, Alexander Golubev, Maksim Nekrashevich, Anton Shevtsov, Simon Karasik, Andrei Andriushchenko, Maria Trofimova, Daria Litvintseva, Boris Yangel
cs.AI
초록
LLM 기반 에이전트는 점점 더 다양한 소프트웨어 엔지니어링(SWE) 작업에서 유망한 능력을 보여주고 있습니다. 그러나 이 분야를 발전시키기 위해서는 두 가지 중요한 과제가 있습니다. 첫째, 고품질의 훈련 데이터가 부족하며, 특히 에이전트가 개발 환경과 상호작용하고 코드를 실행하며 그들의 행동 결과에 따라 행동을 조정해야 하는 실제 SWE 시나리오를 반영한 데이터가 부족합니다. 기존 데이터셋은 일회성 코드 생성에 국한되거나 소규모의 수동으로 선별된 상호작용 작업으로 구성되어 있어 규모와 다양성이 부족합니다. 둘째, 새로운 상호작용 SWE 작업의 부족은 빠르게 개선되는 모델의 평가에 영향을 미치며, 정적 벤치마크는 오염 문제로 인해 빠르게 구식이 됩니다. 이러한 한계를 해결하기 위해, 우리는 다양한 GitHub 저장소에서 실제 상호작용 SWE 작업을 지속적으로 추출할 수 있는 새로운 자동화된 확장 가능한 파이프라인을 소개합니다. 이 파이프라인을 사용하여, 우리는 21,000개 이상의 상호작용 Python 기반 SWE 작업으로 구성된 공개 데이터셋인 SWE-rebench를 구축했습니다. 이 데이터셋은 대규모로 SWE 에이전트의 강화 학습에 적합합니다. 또한, SWE-rebench 방법론을 사용하여 지속적으로 수집된 새로운 작업을 활용하여 오염 없는 에이전트 소프트웨어 엔지니어링 벤치마크를 구축했습니다. 우리는 이 벤치마크에서 다양한 LLM의 결과를 SWE-bench Verified의 결과와 비교하여 일부 언어 모델의 성능이 오염 문제로 인해 과대평가될 수 있음을 보여줍니다.
English
LLM-based agents have shown promising capabilities in a growing range of
software engineering (SWE) tasks. However, advancing this field faces two
critical challenges. First, high-quality training data is scarce, especially
data that reflects real-world SWE scenarios, where agents must interact with
development environments, execute code and adapt behavior based on the outcomes
of their actions. Existing datasets are either limited to one-shot code
generation or comprise small, manually curated collections of interactive
tasks, lacking both scale and diversity. Second, the lack of fresh interactive
SWE tasks affects evaluation of rapidly improving models, as static benchmarks
quickly become outdated due to contamination issues. To address these
limitations, we introduce a novel, automated, and scalable pipeline to
continuously extract real-world interactive SWE tasks from diverse GitHub
repositories. Using this pipeline, we construct SWE-rebench, a public dataset
comprising over 21,000 interactive Python-based SWE tasks, suitable for
reinforcement learning of SWE agents at scale. Additionally, we use continuous
supply of fresh tasks collected using SWE-rebench methodology to build a
contamination-free benchmark for agentic software engineering. We compare
results of various LLMs on this benchmark to results on SWE-bench Verified and
show that performance of some language models might be inflated due to
contamination issues.Summary
AI-Generated Summary