SWE-rebench: Een geautomatiseerde pijplijn voor taakverzameling en gedecontamineerde evaluatie van software engineering agents
SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents
May 26, 2025
Auteurs: Ibragim Badertdinov, Alexander Golubev, Maksim Nekrashevich, Anton Shevtsov, Simon Karasik, Andrei Andriushchenko, Maria Trofimova, Daria Litvintseva, Boris Yangel
cs.AI
Samenvatting
LLM-gebaseerde agents hebben veelbelovende capaciteiten getoond in een groeiend aantal software engineering (SWE) taken. Het vooruitgang boeken op dit gebied wordt echter geconfronteerd met twee kritieke uitdagingen. Ten eerste is hoogwaardige trainingsdata schaars, met name data die realistische SWE-scenario's weerspiegelt, waarbij agents moeten interacteren met ontwikkelomgevingen, code moeten uitvoeren en hun gedrag moeten aanpassen op basis van de resultaten van hun acties. Bestaande datasets zijn beperkt tot eenmalige codegeneratie of bestaan uit kleine, handmatig samengestelde collecties van interactieve taken, waarbij zowel schaal als diversiteit ontbreken. Ten tweede beïnvloedt het gebrek aan nieuwe interactieve SWE-taken de evaluatie van snel verbeterende modellen, aangezien statische benchmarks snel verouderd raken door contaminatieproblemen. Om deze beperkingen aan te pakken, introduceren we een nieuwe, geautomatiseerde en schaalbare pipeline om continu realistische interactieve SWE-taken te extraheren uit diverse GitHub-repositories. Met behulp van deze pipeline construeren we SWE-rebench, een openbare dataset bestaande uit meer dan 21.000 interactieve Python-gebaseerde SWE-taken, geschikt voor reinforcement learning van SWE-agents op grote schaal. Daarnaast gebruiken we de continue aanvoer van nieuwe taken die zijn verzameld met de SWE-rebench-methodologie om een contaminatievrije benchmark te bouwen voor agent-gebaseerde software engineering. We vergelijken de resultaten van verschillende LLM's op deze benchmark met de resultaten op SWE-bench Verified en tonen aan dat de prestaties van sommige taalmogelijkheden mogelijk worden opgeblazen door contaminatieproblemen.
English
LLM-based agents have shown promising capabilities in a growing range of
software engineering (SWE) tasks. However, advancing this field faces two
critical challenges. First, high-quality training data is scarce, especially
data that reflects real-world SWE scenarios, where agents must interact with
development environments, execute code and adapt behavior based on the outcomes
of their actions. Existing datasets are either limited to one-shot code
generation or comprise small, manually curated collections of interactive
tasks, lacking both scale and diversity. Second, the lack of fresh interactive
SWE tasks affects evaluation of rapidly improving models, as static benchmarks
quickly become outdated due to contamination issues. To address these
limitations, we introduce a novel, automated, and scalable pipeline to
continuously extract real-world interactive SWE tasks from diverse GitHub
repositories. Using this pipeline, we construct SWE-rebench, a public dataset
comprising over 21,000 interactive Python-based SWE tasks, suitable for
reinforcement learning of SWE agents at scale. Additionally, we use continuous
supply of fresh tasks collected using SWE-rebench methodology to build a
contamination-free benchmark for agentic software engineering. We compare
results of various LLMs on this benchmark to results on SWE-bench Verified and
show that performance of some language models might be inflated due to
contamination issues.