SWE-rebench: Una Pipeline Automatica per la Raccolta di Task e la Valutazione Decontaminata di Agenti di Ingegneria del Software

Abstract

Gli agenti basati su LLM hanno dimostrato capacità promettenti in un numero crescente di attività di ingegneria del software (SWE). Tuttavia, il progresso in questo campo affronta due sfide critiche. Innanzitutto, i dati di addestramento di alta qualità sono scarsi, specialmente quelli che riflettono scenari reali di SWE, in cui gli agenti devono interagire con ambienti di sviluppo, eseguire codice e adattare il comportamento in base ai risultati delle loro azioni. I dataset esistenti sono limitati alla generazione di codice one-shot o comprendono piccole raccolte manualmente curate di attività interattive, mancando sia di scala che di diversità. In secondo luogo, la mancanza di nuove attività interattive di SWE influisce sulla valutazione di modelli in rapido miglioramento, poiché i benchmark statici diventano rapidamente obsoleti a causa di problemi di contaminazione. Per affrontare queste limitazioni, introduciamo una pipeline innovativa, automatizzata e scalabile per estrarre continuamente attività interattive di SWE reali da vari repository GitHub. Utilizzando questa pipeline, costruiamo SWE-rebench, un dataset pubblico che comprende oltre 21.000 attività interattive di SWE basate su Python, adatto per l'apprendimento per rinforzo di agenti SWE su larga scala. Inoltre, utilizziamo un flusso continuo di nuove attività raccolte con la metodologia SWE-rebench per costruire un benchmark privo di contaminazione per l'ingegneria del software agentica. Confrontiamo i risultati di vari LLM su questo benchmark con i risultati su SWE-bench Verified e mostriamo che le prestazioni di alcuni modelli linguistici potrebbero essere sovrastimate a causa di problemi di contaminazione.

English

LLM-based agents have shown promising capabilities in a growing range of software engineering (SWE) tasks. However, advancing this field faces two critical challenges. First, high-quality training data is scarce, especially data that reflects real-world SWE scenarios, where agents must interact with development environments, execute code and adapt behavior based on the outcomes of their actions. Existing datasets are either limited to one-shot code generation or comprise small, manually curated collections of interactive tasks, lacking both scale and diversity. Second, the lack of fresh interactive SWE tasks affects evaluation of rapidly improving models, as static benchmarks quickly become outdated due to contamination issues. To address these limitations, we introduce a novel, automated, and scalable pipeline to continuously extract real-world interactive SWE tasks from diverse GitHub repositories. Using this pipeline, we construct SWE-rebench, a public dataset comprising over 21,000 interactive Python-based SWE tasks, suitable for reinforcement learning of SWE agents at scale. Additionally, we use continuous supply of fresh tasks collected using SWE-rebench methodology to build a contamination-free benchmark for agentic software engineering. We compare results of various LLMs on this benchmark to results on SWE-bench Verified and show that performance of some language models might be inflated due to contamination issues.

SWE-rebench: Una Pipeline Automatica per la Raccolta di Task e la Valutazione Decontaminata di Agenti di Ingegneria del Software

SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents

Abstract

Support