SWE-bench Gaat Live!

Samenvatting

De taak van het oplossen van problemen, waarbij een model patches genereert om bugs in de echte wereld te verhelpen, is naar voren gekomen als een cruciale benchmark voor het evalueren van de mogelijkheden van grote taalmodellen (LLM's). Hoewel SWE-bench en zijn varianten standaard zijn geworden in dit domein, hebben ze belangrijke beperkingen: ze zijn niet bijgewerkt sinds hun eerste release, bestrijken een beperkte set repositories en zijn sterk afhankelijk van handmatige inspanningen voor het construeren van instanties en het opzetten van omgevingen. Deze factoren belemmeren de schaalbaarheid en introduceren risico's van overfitting en datacontaminatie. In dit werk presenteren we SWE-bench-Live, een live bij te werken benchmark die ontworpen is om deze uitdagingen te overwinnen. Onze eerste release bestaat uit 1.319 taken afgeleid van echte GitHub-issues die sinds 2024 zijn gemaakt, verspreid over 93 repositories. Elke taak wordt vergezeld door een toegewijde Docker-image om reproduceerbare uitvoering te garanderen. Centraal in onze benchmark staat \method, een geautomatiseerde curatiepijplijn die het hele proces stroomlijnt, van het creëren van instanties tot het opzetten van omgevingen, waardoor handmatige knelpunten worden verwijderd en schaalbaarheid en continue updates mogelijk worden gemaakt. We evalueren een reeks state-of-the-art agentframeworks en LLM's op SWE-bench-Live, wat een aanzienlijk prestatiegat aan het licht brengt in vergelijking met statische benchmarks zoals SWE-bench, zelfs onder gecontroleerde evaluatieomstandigheden. Om dit verschil beter te begrijpen, voeren we gedetailleerde analyses uit over repositoryoorsprong, recentheid van issues en taakmoeilijkheid. Door een frisse, diverse en uitvoerbare benchmark te bieden die gebaseerd is op live repositoryactiviteit, faciliteert SWE-bench-Live rigoureuze, contaminatiebestendige evaluatie van LLM's en agents in dynamische, real-world softwareontwikkelingsomgevingen.

English

The issue-resolving task, where a model generates patches to fix real-world bugs, has emerged as a critical benchmark for evaluating the capabilities of large language models (LLMs). While SWE-bench and its variants have become standard in this domain, they suffer from key limitations: they have not been updated since their initial releases, cover a narrow set of repositories, and depend heavily on manual effort for instance construction and environment setup. These factors hinder scalability and introduce risks of overfitting and data contamination. In this work, we present SWE-bench-Live, a live-updatable benchmark designed to overcome these challenges. Our initial release consists of 1,319 tasks derived from real GitHub issues created since 2024, spanning 93 repositories. Each task is accompanied by a dedicated Docker image to ensure reproducible execution. Central to our benchmark is \method, an automated curation pipeline that streamlines the entire process from instance creation to environment setup, removing manual bottlenecks and enabling scalability and continuous updates. We evaluate a range of state-of-the-art agent frameworks and LLMs on SWE-bench-Live, revealing a substantial performance gap compared to static benchmarks like SWE-bench, even under controlled evaluation conditions. To better understand this discrepancy, we perform detailed analyses across repository origin, issue recency, and task difficulty. By providing a fresh, diverse, and executable benchmark grounded in live repository activity, SWE-bench-Live facilitates rigorous, contamination-resistant evaluation of LLMs and agents in dynamic, real-world software development settings.

SWE-bench Gaat Live!

SWE-bench Goes Live!

Samenvatting

Support