SWE-bench è ora attivo!

Abstract

Il compito di risoluzione dei problemi, in cui un modello genera patch per correggere bug del mondo reale, è emerso come un benchmark critico per valutare le capacità dei grandi modelli linguistici (LLM). Sebbene SWE-bench e le sue varianti siano diventati standard in questo ambito, presentano limitazioni significative: non sono stati aggiornati dalla loro prima pubblicazione, coprono un insieme ristretto di repository e dipendono fortemente dallo sforzo manuale per la costruzione delle istanze e la configurazione dell'ambiente. Questi fattori ostacolano la scalabilità e introducono rischi di overfitting e contaminazione dei dati. In questo lavoro, presentiamo SWE-bench-Live, un benchmark aggiornabile in tempo reale progettato per superare queste sfide. La nostra prima versione consiste in 1.319 task derivati da problemi reali di GitHub creati dal 2024, provenienti da 93 repository. Ogni task è accompagnato da un'immagine Docker dedicata per garantire un'esecuzione riproducibile. Al centro del nostro benchmark c'è \method, una pipeline di curatela automatizzata che semplifica l'intero processo dalla creazione delle istanze alla configurazione dell'ambiente, eliminando i colli di bottiglia manuali e consentendo scalabilità e aggiornamenti continui. Valutiamo una gamma di framework di agenti e LLM all'avanguardia su SWE-bench-Live, rivelando un divario di prestazioni significativo rispetto a benchmark statici come SWE-bench, anche in condizioni di valutazione controllate. Per comprendere meglio questa discrepanza, eseguiamo analisi dettagliate sull'origine del repository, la recentezza dei problemi e la difficoltà dei task. Fornendo un benchmark fresco, diversificato ed eseguibile basato sull'attività in tempo reale dei repository, SWE-bench-Live facilita una valutazione rigorosa e resistente alla contaminazione di LLM e agenti in contesti dinamici e reali di sviluppo software.

English

The issue-resolving task, where a model generates patches to fix real-world bugs, has emerged as a critical benchmark for evaluating the capabilities of large language models (LLMs). While SWE-bench and its variants have become standard in this domain, they suffer from key limitations: they have not been updated since their initial releases, cover a narrow set of repositories, and depend heavily on manual effort for instance construction and environment setup. These factors hinder scalability and introduce risks of overfitting and data contamination. In this work, we present SWE-bench-Live, a live-updatable benchmark designed to overcome these challenges. Our initial release consists of 1,319 tasks derived from real GitHub issues created since 2024, spanning 93 repositories. Each task is accompanied by a dedicated Docker image to ensure reproducible execution. Central to our benchmark is \method, an automated curation pipeline that streamlines the entire process from instance creation to environment setup, removing manual bottlenecks and enabling scalability and continuous updates. We evaluate a range of state-of-the-art agent frameworks and LLMs on SWE-bench-Live, revealing a substantial performance gap compared to static benchmarks like SWE-bench, even under controlled evaluation conditions. To better understand this discrepancy, we perform detailed analyses across repository origin, issue recency, and task difficulty. By providing a fresh, diverse, and executable benchmark grounded in live repository activity, SWE-bench-Live facilitates rigorous, contamination-resistant evaluation of LLMs and agents in dynamic, real-world software development settings.

SWE-bench è ora attivo!

SWE-bench Goes Live!

Abstract

Support