SWE-EVO: Het benchmarken van codeeragents in langetermijnsoftware-evolutiescenario's

Samenvatting

Bestaande benchmarks voor AI-codeeragents richten zich op geïsoleerde, enkelvoudige taken zoals het repareren van een bug of het implementeren van een kleine functie. Echter, software-engineering in de praktijk is in wezen een langetermijninspanning: ontwikkelaars moeten hoogwaardige vereisten interpreteren, gecoördineerde wijzigingen over vele bestanden plannen, en codebasissen over meerdere iteraties heen ontwikkelen, terwijl bestaande functionaliteit behouden blijft. Wij introduceren SWE-EVO, een benchmark die agents evalueert op deze langetermijnuitdaging van software-evolutie. Geconstrueerd uit release notes en versiegeschiedenissen van zeven volwassen open-source Python-projecten, omvat de benchmark 48 evolutietaken die van agents vereisen om meerstapswijzigingen te implementeren die gemiddeld 21 bestanden beslaan, gevalideerd tegen uitgebreide testsuites met gemiddeld 874 tests per instantie. Experimenten met state-of-the-art modellen onthullen een opvallende capaciteitskloof: zelfs GPT-5 met OpenHands behaalt slechts een slagingspercentage van 21 procent op de benchmark, vergeleken met 65 procent op de enkelvoudige SWE-Bench Verified. Dit toont aan dat huidige agents moeite hebben met aanhoudende, multi-bestands redenering. Wij stellen ook Fix Rate voor, een fijnmazige metriek die gedeeltelijke vooruitgang vastlegt bij het oplossen van deze complexe, langetermijntaken.

English

Existing benchmarks for AI coding agents focus on isolated, single-issue tasks such as fixing a bug or implementing a small feature. However, real-world software engineering is fundamentally a long-horizon endeavor: developers must interpret high-level requirements, plan coordinated changes across many files, and evolve codebases over multiple iterations while preserving existing functionality. We introduce SWE-EVO, a benchmark that evaluates agents on this long-horizon software evolution challenge. Constructed from release notes and version histories of seven mature open-source Python projects, Tool comprises 48 evolution tasks that require agents to implement multi-step modifications spanning an average of 21 files, validated against comprehensive test suites averaging 874 tests per instance. Experiments with state-of-the-art models reveal a striking capability gap: even GPT-5 with OpenHands achieves only a 21 percent resolution rate on Tool, compared to 65 percent on the single-issue SWE-Bench Verified. This demonstrates that current agents struggle with sustained, multi-file reasoning. We also propose Fix Rate, a fine-grained metric that captures partial progress toward solving these complex, long-horizon tasks.

SWE-EVO: Het benchmarken van codeeragents in langetermijnsoftware-evolutiescenario's

SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios

Samenvatting

Support