SWE-rebench V2: Raccolta Scalabile di Task SWE Indipendente dal Linguaggio

Abstract

Gli agenti di ingegneria del software (SWE) stanno migliorando rapidamente, con i recenti progressi guidati principalmente dall'apprendimento per rinforzo (RL). Tuttavia, l'addestramento RL è limitato dalla scarsità di raccolte su larga scala di task con ambienti di esecuzione riproducibili e suite di test affidabili. Sebbene siano emersi numerosi benchmark, i dataset adatti per l'addestramento rimangono limitati in scala e diversità o spesso si rivolgono a un insieme ristretto di ecosistemi linguistici ad alto reddito. Introduciamo SWE-rebench V2, una pipeline automatizzata agnostica rispetto al linguaggio per raccogliere task SWE eseguibili del mondo reale e costruire ambienti di addestramento RL su larga scala. La pipeline sintetizza procedure di installazione e test specifiche per repository tramite un agente di configurazione interattivo e filtra le istanze non valide utilizzando un ensemble di giudici LLM, convalidati rispetto alle annotazioni SWE-bench verificate da esseri umani. Utilizzando questa pipeline, abbiamo costruito un dataset di oltre 32.000 task che coprono 20 linguaggi e oltre 3.600 repository, con immagini pre-costruite per un'esecuzione riproducibile. Per scalare ulteriormente i dati di addestramento, rilasciamo inoltre oltre 120.000 task con istruzioni di installazione, test di tipo "fail-to-pass" e metadati ricchi, in cui la descrizione del problema è generata sulla base della descrizione originale della pull request. Convalidiamo le istanze raccolte attraverso uno studio diagnostico che copre un sottoinsieme di task in cinque linguaggi di programmazione su sette modelli popolari e forniamo metadati a livello di istanza che segnalano fattori confondenti comuni come test eccessivamente restrittivi e descrizioni sotto-specificate. Rilasciamo i dataset, il codice di raccolta ed esecuzione e gli artefatti associati per consentire l'addestramento su larga scala di agenti SWE su linguaggi e repository diversificati.

English

Software engineering agents (SWE) are improving rapidly, with recent gains largely driven by reinforcement learning (RL). However, RL training is constrained by the scarcity of large-scale task collections with reproducible execution environments and reliable test suites. Although a growing number of benchmarks have emerged, datasets suitable for training remain limited in scale and diversity or often target a limited set of high-resource language ecosystems. We introduce SWE-rebench V2, a language-agnostic automated pipeline for harvesting executable real-world SWE tasks and constructing RL training environments at scale. The pipeline synthesizes repository-specific installation and test procedures via an interactive setup agent, and filters unsound instances using an ensemble of LLM judges, validated against human-verified SWE-bench annotations. Using this pipeline, we construct a dataset of 32,000+ tasks spanning 20 languages and 3,600+ repositories, with pre-built images for reproducible execution. To further scale training data, we additionally release 120,000+ tasks with installation instructions, fail-to-pass tests and rich metadata, where the problem statement is generated based on the original pull request description. We validate the collected instances through a diagnostic study that covers a subset of tasks in five programming languages across seven popular models, and provide instance-level metadata that flags common confounders such as overly restrictive tests and underspecified descriptions. We release the datasets, the collection and execution code, and associated artifacts to enable large-scale training of SWE agents across diverse languages and repositories.

SWE-rebench V2: Raccolta Scalabile di Task SWE Indipendente dal Linguaggio

SWE-rebench V2: Language-Agnostic SWE Task Collection at Scale

Abstract

Support