SWE-EVO : Évaluation comparative des agents de codage dans des scénarios d'évolution logiciale à long terme

papers.abstract

Les benchmarks existants pour les agents d'intelligence artificielle en programmation se concentrent sur des tâches isolées et ponctuelles, comme la correction d'un bug ou l'implémentation d'une petite fonctionnalité. Cependant, l'ingénierie logicielle réelle est fondamentalement une activité à long terme : les développeurs doivent interpréter des exigences de haut niveau, planifier des modifications coordonnées sur de nombreux fichiers et faire évoluer les bases de code sur plusieurs itérations tout en préservant les fonctionnalités existantes. Nous présentons SWE-EVO, un benchmark qui évalue les agents sur ce défi d'évolution logicielle à long terme. Construit à partir des notes de version et de l'historique de sept projets Python open source matures, SWE-EVO comprend 48 tâches d'évolution qui exigent des agents qu'ils mettent en œuvre des modifications en plusieurs étapes couvrant en moyenne 21 fichiers, validées par des suites de tests complètes représentant en moyenne 874 tests par instance. Les expériences avec les modèles les plus performants révèlent un écart de capacité frappant : même GPT-5 avec OpenHands n'atteint qu'un taux de résolution de 21 % sur SWE-EVO, contre 65 % sur le benchmark ponctuel SWE-Bench Verified. Cela démontre que les agents actuels éprouvent des difficultés avec un raisonnement soutenu et multi-fichiers. Nous proposons également le taux de correction, une métrique granulaire qui capture les progrès partiels dans la résolution de ces tâches complexes et à long terme.

English

Existing benchmarks for AI coding agents focus on isolated, single-issue tasks such as fixing a bug or implementing a small feature. However, real-world software engineering is fundamentally a long-horizon endeavor: developers must interpret high-level requirements, plan coordinated changes across many files, and evolve codebases over multiple iterations while preserving existing functionality. We introduce SWE-EVO, a benchmark that evaluates agents on this long-horizon software evolution challenge. Constructed from release notes and version histories of seven mature open-source Python projects, Tool comprises 48 evolution tasks that require agents to implement multi-step modifications spanning an average of 21 files, validated against comprehensive test suites averaging 874 tests per instance. Experiments with state-of-the-art models reveal a striking capability gap: even GPT-5 with OpenHands achieves only a 21 percent resolution rate on Tool, compared to 65 percent on the single-issue SWE-Bench Verified. This demonstrates that current agents struggle with sustained, multi-file reasoning. We also propose Fix Rate, a fine-grained metric that captures partial progress toward solving these complex, long-horizon tasks.

SWE-EVO : Évaluation comparative des agents de codage dans des scénarios d'évolution logiciale à long terme

SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios

papers.abstract

Support