SWE-EVO: Benchmarking von Code-Agenten in langfristigen Software-Evolutionsszenarien

papers.abstract

Bestehende Benchmarks für KI-Codierungsagenten konzentrieren sich auf isolierte, einfache Aufgaben wie das Beheben eines Fehlers oder das Implementieren einer kleinen Funktion. Die reale Softwareentwicklung ist jedoch grundsätzlich ein langfristiges Unterfangen: Entwickler müssen hochlevelige Anforderungen interpretieren, koordinierte Änderungen über viele Dateien hinweg planen und Codebasen über mehrere Iterationen hinweg weiterentwickeln, wobei die bestehende Funktionalität erhalten bleibt. Wir stellen SWE-EVO vor, einen Benchmark, der Agenten anhand dieser langfristigen Software-Evolutionsherausforderung bewertet. Konstruiert aus Release Notes und Versionsverläufen von sieben ausgereiften Open-Source-Python-Projekten, umfasst das Tool 48 Evolutionsaufgaben, die von Agenten die Implementierung mehrstufiger Änderungen verlangen, die durchschnittlich 21 Dateien umspannen und gegen umfassende Test-Suiten mit durchschnittlich 874 Tests pro Instanz validiert werden. Experimente mit modernsten Modellen zeigen eine frappierende Fähigkeitslücke: Selbst GPT-5 mit OpenHands erreicht auf dem Tool nur eine Lösungsrate von 21 Prozent, verglichen mit 65 Prozent auf dem einfachen SWE-Bench Verified. Dies zeigt, dass aktuelle Agenten mit nachhaltigem, dateiübergreifendem Denken kämpfen. Wir schlagen zudem die Fix Rate vor, eine feingranulare Metrik, die partielle Fortschritte bei der Lösung dieser komplexen, langfristigen Aufgaben erfasst.

English

Existing benchmarks for AI coding agents focus on isolated, single-issue tasks such as fixing a bug or implementing a small feature. However, real-world software engineering is fundamentally a long-horizon endeavor: developers must interpret high-level requirements, plan coordinated changes across many files, and evolve codebases over multiple iterations while preserving existing functionality. We introduce SWE-EVO, a benchmark that evaluates agents on this long-horizon software evolution challenge. Constructed from release notes and version histories of seven mature open-source Python projects, Tool comprises 48 evolution tasks that require agents to implement multi-step modifications spanning an average of 21 files, validated against comprehensive test suites averaging 874 tests per instance. Experiments with state-of-the-art models reveal a striking capability gap: even GPT-5 with OpenHands achieves only a 21 percent resolution rate on Tool, compared to 65 percent on the single-issue SWE-Bench Verified. This demonstrates that current agents struggle with sustained, multi-file reasoning. We also propose Fix Rate, a fine-grained metric that captures partial progress toward solving these complex, long-horizon tasks.

SWE-EVO: Benchmarking von Code-Agenten in langfristigen Software-Evolutionsszenarien

SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios

papers.abstract

Support