SWE-rebench V2: Sprachagnostische Sammlung von SWE-Aufgaben in großem Maßstab

Zusammenfassung

Software Engineering Agents (SWE) verbessern sich rapide, wobei die jüngsten Fortschritte maßgeblich durch Reinforcement Learning (RL) vorangetrieben werden. Das RL-Training wird jedoch durch den Mangel an umfangreichen Aufgabensammlungen mit reproduzierbaren Ausführungsumgebungen und zuverlässigen Testsuites eingeschränkt. Obwohl zunehmend mehr Benchmarks verfügbar sind, bleiben für das Training geeignete Datensätze in Umfang und Vielfalt begrenzt oder zielen oft auf eine begrenzte Anzahl von Ökosystemen für Hochressourcen-Sprachen ab. Wir stellen SWE-rebench V2 vor, eine sprachagnostische, automatisierte Pipeline zur Erfassung ausführbarer SWE-Aufgaben aus der Praxis und zur Konstruktion von RL-Trainingsumgebungen im großen Maßstab. Die Pipeline synthetisiert repositoriespezifische Installations- und Testverfahren über einen interaktiven Setup-Agenten und filtert unzuverlässige Instanzen mittels eines Ensembles von LLM-Judges, die anhand menschlich verifizierter SWE-Bench-Annotationen validiert wurden. Mit dieser Pipeline erstellen wir einen Datensatz mit über 32.000 Aufgaben, die 20 Sprachen und über 3.600 Repositories umfassen, inklusive vorgefertigter Images für reproduzierbare Ausführung. Um die Trainingsdaten weiter zu skalieren, veröffentlichen wir zusätzlich über 120.000 Aufgaben mit Installationsanweisungen, Fail-to-Pass-Tests und umfangreichen Metadaten, wobei die Problemstellung auf Basis der ursprünglichen Pull-Request-Beschreibung generiert wird. Wir validieren die gesammelten Instanzen durch eine Diagnosestudie, die eine Teilmenge von Aufgaben in fünf Programmiersprachen über sieben verbreitete Modelle abdeckt, und stellen instanzspezifische Metadaten bereit, die häufige Störfaktoren wie zu restriktive Tests und unzureichend spezifizierte Beschreibungen kennzeichnen. Wir veröffentlichen die Datensätze, den Erfassungs- und Ausführungscode sowie zugehörige Artefakte, um das Training von SWE-Agents im großen Maßstab über verschiedene Sprachen und Repositories hinweg zu ermöglichen.

English

Software engineering agents (SWE) are improving rapidly, with recent gains largely driven by reinforcement learning (RL). However, RL training is constrained by the scarcity of large-scale task collections with reproducible execution environments and reliable test suites. Although a growing number of benchmarks have emerged, datasets suitable for training remain limited in scale and diversity or often target a limited set of high-resource language ecosystems. We introduce SWE-rebench V2, a language-agnostic automated pipeline for harvesting executable real-world SWE tasks and constructing RL training environments at scale. The pipeline synthesizes repository-specific installation and test procedures via an interactive setup agent, and filters unsound instances using an ensemble of LLM judges, validated against human-verified SWE-bench annotations. Using this pipeline, we construct a dataset of 32,000+ tasks spanning 20 languages and 3,600+ repositories, with pre-built images for reproducible execution. To further scale training data, we additionally release 120,000+ tasks with installation instructions, fail-to-pass tests and rich metadata, where the problem statement is generated based on the original pull request description. We validate the collected instances through a diagnostic study that covers a subset of tasks in five programming languages across seven popular models, and provide instance-level metadata that flags common confounders such as overly restrictive tests and underspecified descriptions. We release the datasets, the collection and execution code, and associated artifacts to enable large-scale training of SWE agents across diverse languages and repositories.

SWE-rebench V2: Sprachagnostische Sammlung von SWE-Aufgaben in großem Maßstab

SWE-rebench V2: Language-Agnostic SWE Task Collection at Scale

Zusammenfassung

Support