SWE-bench est en ligne !

papers.abstract

La tâche de résolution de problèmes, où un modèle génère des correctifs pour résoudre des bogues réels, est devenue un critère essentiel pour évaluer les capacités des grands modèles de langage (LLMs). Bien que SWE-bench et ses variantes soient devenus des références standard dans ce domaine, ils présentent des limites majeures : ils n'ont pas été mis à jour depuis leur publication initiale, couvrent un ensemble restreint de dépôts, et dépendent fortement d'efforts manuels pour la construction des instances et la configuration des environnements. Ces facteurs entravent l'évolutivité et introduisent des risques de surapprentissage et de contamination des données. Dans ce travail, nous présentons SWE-bench-Live, un benchmark actualisable en temps réel conçu pour surmonter ces défis. Notre version initiale comprend 1 319 tâches issues de problèmes réels sur GitHub créés depuis 2024, couvrant 93 dépôts. Chaque tâche est accompagnée d'une image Docker dédiée pour garantir une exécution reproductible. Au cœur de notre benchmark se trouve \method, un pipeline de curation automatisé qui simplifie l'ensemble du processus, de la création des instances à la configuration des environnements, éliminant les goulots d'étranglement manuels et permettant une évolutivité et des mises à jour continues. Nous évaluons une gamme de frameworks d'agents et de LLMs de pointe sur SWE-bench-Live, révélant un écart de performance significatif par rapport aux benchmarks statiques comme SWE-bench, même dans des conditions d'évaluation contrôlées. Pour mieux comprendre cette divergence, nous effectuons des analyses détaillées portant sur l'origine des dépôts, la récence des problèmes et la difficulté des tâches. En fournissant un benchmark frais, diversifié et exécutable basé sur l'activité en temps réel des dépôts, SWE-bench-Live facilite une évaluation rigoureuse et résistante à la contamination des LLMs et des agents dans des contextes de développement logiciel dynamiques et réels.

English

The issue-resolving task, where a model generates patches to fix real-world bugs, has emerged as a critical benchmark for evaluating the capabilities of large language models (LLMs). While SWE-bench and its variants have become standard in this domain, they suffer from key limitations: they have not been updated since their initial releases, cover a narrow set of repositories, and depend heavily on manual effort for instance construction and environment setup. These factors hinder scalability and introduce risks of overfitting and data contamination. In this work, we present SWE-bench-Live, a live-updatable benchmark designed to overcome these challenges. Our initial release consists of 1,319 tasks derived from real GitHub issues created since 2024, spanning 93 repositories. Each task is accompanied by a dedicated Docker image to ensure reproducible execution. Central to our benchmark is \method, an automated curation pipeline that streamlines the entire process from instance creation to environment setup, removing manual bottlenecks and enabling scalability and continuous updates. We evaluate a range of state-of-the-art agent frameworks and LLMs on SWE-bench-Live, revealing a substantial performance gap compared to static benchmarks like SWE-bench, even under controlled evaluation conditions. To better understand this discrepancy, we perform detailed analyses across repository origin, issue recency, and task difficulty. By providing a fresh, diverse, and executable benchmark grounded in live repository activity, SWE-bench-Live facilitates rigorous, contamination-resistant evaluation of LLMs and agents in dynamic, real-world software development settings.

SWE-bench est en ligne !

SWE-bench Goes Live!

papers.abstract

Support