SWE-rebench: Eine automatisierte Pipeline zur Aufgaben-Sammlung und dekontaminierten Bewertung von Software-Engineering-Agenten
SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents
May 26, 2025
Autoren: Ibragim Badertdinov, Alexander Golubev, Maksim Nekrashevich, Anton Shevtsov, Simon Karasik, Andrei Andriushchenko, Maria Trofimova, Daria Litvintseva, Boris Yangel
cs.AI
Zusammenfassung
LLM-basierte Agenten haben vielversprechende Fähigkeiten in einer wachsenden Anzahl von Softwareentwicklungsaufgaben (SWE) gezeigt. Die Weiterentwicklung dieses Bereichs steht jedoch vor zwei kritischen Herausforderungen. Erstens sind hochwertige Trainingsdaten knapp, insbesondere Daten, die reale SWE-Szenarien widerspiegeln, in denen Agenten mit Entwicklungsumgebungen interagieren, Code ausführen und ihr Verhalten basierend auf den Ergebnissen ihrer Aktionen anpassen müssen. Bestehende Datensätze beschränken sich entweder auf einmalige Codegenerierung oder bestehen aus kleinen, manuell kuratierten Sammlungen interaktiver Aufgaben, denen sowohl Umfang als auch Vielfalt fehlen. Zweitens beeinträchtigt der Mangel an neuen interaktiven SWE-Aufgaben die Bewertung sich schnell verbessernder Modelle, da statische Benchmarks aufgrund von Kontaminationsproblemen schnell veraltet sind. Um diese Einschränkungen zu überwinden, stellen wir eine neuartige, automatisierte und skalierbare Pipeline vor, die kontinuierlich reale interaktive SWE-Aufgaben aus diversen GitHub-Repositories extrahiert. Mit dieser Pipeline erstellen wir SWE-rebench, einen öffentlichen Datensatz, der über 21.000 interaktive Python-basierte SWE-Aufgaben umfasst und sich für das Reinforcement Learning von SWE-Agenten im großen Maßstab eignet. Zusätzlich nutzen wir die kontinuierliche Bereitstellung neuer Aufgaben, die mit der SWE-rebench-Methodik gesammelt werden, um einen kontaminationsfreien Benchmark für agentenbasierte Softwareentwicklung zu erstellen. Wir vergleichen die Ergebnisse verschiedener LLMs auf diesem Benchmark mit den Ergebnissen auf SWE-bench Verified und zeigen, dass die Leistung einiger Sprachmodelle aufgrund von Kontaminationsproblemen möglicherweise überschätzt wird.
English
LLM-based agents have shown promising capabilities in a growing range of
software engineering (SWE) tasks. However, advancing this field faces two
critical challenges. First, high-quality training data is scarce, especially
data that reflects real-world SWE scenarios, where agents must interact with
development environments, execute code and adapt behavior based on the outcomes
of their actions. Existing datasets are either limited to one-shot code
generation or comprise small, manually curated collections of interactive
tasks, lacking both scale and diversity. Second, the lack of fresh interactive
SWE tasks affects evaluation of rapidly improving models, as static benchmarks
quickly become outdated due to contamination issues. To address these
limitations, we introduce a novel, automated, and scalable pipeline to
continuously extract real-world interactive SWE tasks from diverse GitHub
repositories. Using this pipeline, we construct SWE-rebench, a public dataset
comprising over 21,000 interactive Python-based SWE tasks, suitable for
reinforcement learning of SWE agents at scale. Additionally, we use continuous
supply of fresh tasks collected using SWE-rebench methodology to build a
contamination-free benchmark for agentic software engineering. We compare
results of various LLMs on this benchmark to results on SWE-bench Verified and
show that performance of some language models might be inflated due to
contamination issues.Summary
AI-Generated Summary