SWE-rebench : Un pipeline automatisé pour la collecte de tâches et l'évaluation décontaminée d'agents en génie logiciel
SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents
May 26, 2025
Auteurs: Ibragim Badertdinov, Alexander Golubev, Maksim Nekrashevich, Anton Shevtsov, Simon Karasik, Andrei Andriushchenko, Maria Trofimova, Daria Litvintseva, Boris Yangel
cs.AI
Résumé
Les agents basés sur LLM ont démontré des capacités prometteuses dans un nombre croissant de tâches de génie logiciel (SWE). Cependant, l'avancement de ce domaine est confronté à deux défis majeurs. Premièrement, les données d'entraînement de haute qualité sont rares, en particulier celles qui reflètent des scénarios réels de SWE, où les agents doivent interagir avec des environnements de développement, exécuter du code et adapter leur comportement en fonction des résultats de leurs actions. Les ensembles de données existants se limitent soit à la génération de code en une seule étape, soit à de petites collections manuellement curatées de tâches interactives, manquant à la fois d'échelle et de diversité. Deuxièmement, le manque de tâches interactives récentes en SWE affecte l'évaluation des modèles en amélioration rapide, car les benchmarks statiques deviennent rapidement obsolètes en raison de problèmes de contamination. Pour répondre à ces limitations, nous introduisons un pipeline novateur, automatisé et évolutif pour extraire en continu des tâches interactives de SWE issues de divers dépôts GitHub. En utilisant ce pipeline, nous construisons SWE-rebench, un ensemble de données public comprenant plus de 21 000 tâches interactives basées sur Python, adapté à l'apprentissage par renforcement d'agents de SWE à grande échelle. De plus, nous utilisons un flux continu de tâches récentes collectées grâce à la méthodologie SWE-rebench pour construire un benchmark exempt de contamination pour le génie logiciel agentique. Nous comparons les résultats de divers LLM sur ce benchmark à ceux de SWE-bench Verified et montrons que les performances de certains modèles de langage pourraient être surévaluées en raison de problèmes de contamination.
English
LLM-based agents have shown promising capabilities in a growing range of
software engineering (SWE) tasks. However, advancing this field faces two
critical challenges. First, high-quality training data is scarce, especially
data that reflects real-world SWE scenarios, where agents must interact with
development environments, execute code and adapt behavior based on the outcomes
of their actions. Existing datasets are either limited to one-shot code
generation or comprise small, manually curated collections of interactive
tasks, lacking both scale and diversity. Second, the lack of fresh interactive
SWE tasks affects evaluation of rapidly improving models, as static benchmarks
quickly become outdated due to contamination issues. To address these
limitations, we introduce a novel, automated, and scalable pipeline to
continuously extract real-world interactive SWE tasks from diverse GitHub
repositories. Using this pipeline, we construct SWE-rebench, a public dataset
comprising over 21,000 interactive Python-based SWE tasks, suitable for
reinforcement learning of SWE agents at scale. Additionally, we use continuous
supply of fresh tasks collected using SWE-rebench methodology to build a
contamination-free benchmark for agentic software engineering. We compare
results of various LLMs on this benchmark to results on SWE-bench Verified and
show that performance of some language models might be inflated due to
contamination issues.Summary
AI-Generated Summary