SWE-bench geht live!
SWE-bench Goes Live!
May 29, 2025
Autoren: Linghao Zhang, Shilin He, Chaoyun Zhang, Yu Kang, Bowen Li, Chengxing Xie, Junhao Wang, Maoquan Wang, Yufan Huang, Shengyu Fu, Elsie Nallipogu, Qingwei Lin, Yingnong Dang, Saravan Rajmohan, Dongmei Zhang
cs.AI
Zusammenfassung
Die Aufgabe der Problembehebung, bei der ein Modelle Patches zur Behebung von Fehlern in der Praxis generiert, hat sich als entscheidender Maßstab zur Bewertung der Fähigkeiten von großen Sprachmodellen (LLMs) etabliert. Obwohl SWE-bench und seine Varianten in diesem Bereich zum Standard geworden sind, weisen sie wesentliche Einschränkungen auf: Sie wurden seit ihrer Erstveröffentlichung nicht aktualisiert, decken nur eine begrenzte Anzahl von Repositories ab und sind stark von manuellen Anstrengungen bei der Instanzerstellung und Umgebungseinrichtung abhängig. Diese Faktoren behindern die Skalierbarkeit und bergen Risiken von Überanpassung und Datenkontamination. In dieser Arbeit stellen wir SWE-bench-Live vor, einen live-aktualisierbaren Benchmark, der entwickelt wurde, um diese Herausforderungen zu überwinden. Unsere Erstveröffentlichung umfasst 1.319 Aufgaben, die aus realen GitHub-Issues stammen, die seit 2024 erstellt wurden und 93 Repositories abdecken. Jede Aufgabe wird von einem dedizierten Docker-Image begleitet, um eine reproduzierbare Ausführung zu gewährleisten. Kernstück unseres Benchmarks ist \method, eine automatisierte Kuratierungspipeline, die den gesamten Prozess von der Instanzerstellung bis zur Umgebungseinrichtung optimiert, manuelle Engpässe beseitigt und Skalierbarkeit sowie kontinuierliche Aktualisierungen ermöglicht. Wir bewerten eine Reihe von state-of-the-art Agenten-Frameworks und LLMs auf SWE-bench-Live und zeigen eine erhebliche Leistungslücke im Vergleich zu statischen Benchmarks wie SWE-bench, selbst unter kontrollierten Bewertungsbedingungen. Um diese Diskrepanz besser zu verstehen, führen wir detaillierte Analysen in Bezug auf die Herkunft der Repositories, die Aktualität der Issues und die Schwierigkeit der Aufgaben durch. Durch die Bereitstellung eines aktuellen, vielfältigen und ausführbaren Benchmarks, der auf der Live-Aktivität von Repositories basiert, ermöglicht SWE-bench-Live eine rigorose, kontaminationsresistente Bewertung von LLMs und Agenten in dynamischen, realen Softwareentwicklungsumgebungen.
English
The issue-resolving task, where a model generates patches to fix real-world
bugs, has emerged as a critical benchmark for evaluating the capabilities of
large language models (LLMs). While SWE-bench and its variants have become
standard in this domain, they suffer from key limitations: they have not been
updated since their initial releases, cover a narrow set of repositories, and
depend heavily on manual effort for instance construction and environment
setup. These factors hinder scalability and introduce risks of overfitting and
data contamination. In this work, we present SWE-bench-Live, a
live-updatable benchmark designed to overcome these challenges. Our
initial release consists of 1,319 tasks derived from real GitHub issues created
since 2024, spanning 93 repositories. Each task is accompanied by a dedicated
Docker image to ensure reproducible execution. Central to our benchmark is
\method, an automated curation pipeline that streamlines the entire process
from instance creation to environment setup, removing manual bottlenecks and
enabling scalability and continuous updates. We evaluate a range of
state-of-the-art agent frameworks and LLMs on SWE-bench-Live, revealing a
substantial performance gap compared to static benchmarks like SWE-bench, even
under controlled evaluation conditions. To better understand this discrepancy,
we perform detailed analyses across repository origin, issue recency, and task
difficulty. By providing a fresh, diverse, and executable benchmark grounded in
live repository activity, SWE-bench-Live facilitates rigorous,
contamination-resistant evaluation of LLMs and agents in dynamic, real-world
software development settings.Summary
AI-Generated Summary