SWE-EVO: Valutazione di Agenti di Codifica in Scenari di Evoluzione Software a Lungo Orizzonte

Abstract

I benchmark esistenti per gli agenti di programmazione IA si concentrano su compiti isolati e monodimensionali, come la correzione di un bug o l'implementazione di una piccola funzionalità. Tuttavia, l'ingegneria del software nel mondo reale è fondamentalmente un'attività a lungo termine: gli sviluppatori devono interpretare requisiti di alto livello, pianificare modifiche coordinate su molti file ed evolvere le codebase attraverso multiple iterazioni, preservando nel contempo le funzionalità esistenti. Introduciamo SWE-EVO, un benchmark che valuta gli agenti su questa sfida dell'evoluzione software a lungo termine. Costruito dalle note di rilascio e dalle cronologie delle versioni di sette progetti Python open source maturi, SWE-EVO comprende 48 task di evoluzione che richiedono agli agenti di implementare modifiche multi-step che interessano in media 21 file, convalidati rispetto a suite di test complete con una media di 874 test per istanza. Esperimenti con modelli all'avanguardia rivelano un notevole divario prestazionale: anche GPT-4o con OpenHands raggiunge solo un tasso di risoluzione del 21 percento su SWE-EVO, rispetto al 65 percento sul benchmark a singolo problema SWE-Bench Verified. Ciò dimostra che gli agenti attuali faticano nel ragionamento sostenuto e multi-file. Proponiamo inoltre il Fix Rate, una metrica granulare che cattura i progressi parziali verso la risoluzione di questi complessi task a lungo termine.

English

Existing benchmarks for AI coding agents focus on isolated, single-issue tasks such as fixing a bug or implementing a small feature. However, real-world software engineering is fundamentally a long-horizon endeavor: developers must interpret high-level requirements, plan coordinated changes across many files, and evolve codebases over multiple iterations while preserving existing functionality. We introduce SWE-EVO, a benchmark that evaluates agents on this long-horizon software evolution challenge. Constructed from release notes and version histories of seven mature open-source Python projects, Tool comprises 48 evolution tasks that require agents to implement multi-step modifications spanning an average of 21 files, validated against comprehensive test suites averaging 874 tests per instance. Experiments with state-of-the-art models reveal a striking capability gap: even GPT-5 with OpenHands achieves only a 21 percent resolution rate on Tool, compared to 65 percent on the single-issue SWE-Bench Verified. This demonstrates that current agents struggle with sustained, multi-file reasoning. We also propose Fix Rate, a fine-grained metric that captures partial progress toward solving these complex, long-horizon tasks.

SWE-EVO: Valutazione di Agenti di Codifica in Scenari di Evoluzione Software a Lungo Orizzonte

SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios

Abstract

Support