SWE-EVO: Evaluación de Agentes de Programación en Escenarios de Evolución de Software de Horizonte Largo

Resumen

Los puntos de referencia existentes para agentes de programación de IA se centran en tareas aisladas de un solo problema, como corregir un error o implementar una funcionalidad pequeña. Sin embargo, la ingeniería de software en el mundo real es fundamentalmente una actividad de largo alcance: los desarrolladores deben interpretar requisitos de alto nivel, planificar cambios coordinados en múltiples archivos y evolucionar bases de código a lo largo de múltiples iteraciones, preservando la funcionalidad existente. Presentamos SWE-EVO, un punto de referencia que evalúa a los agentes en este desafío de evolución de software a largo plazo. Construido a partir de notas de versión e historiales de versiones de siete proyectos maduros de Python de código abierto, SWE-EVO comprende 48 tareas de evolución que requieren que los agentes implementen modificaciones de múltiples pasos que abarcan un promedio de 21 archivos, validadas mediante suites de pruebas exhaustivas con un promedio de 874 pruebas por instancia. Los experimentos con modelos de última generación revelan una brecha de capacidad sorprendente: incluso GPT-4 con OpenHands logra solo una tasa de resolución del 21 por ciento en SWE-EVO, en comparación con el 65 por ciento en el SWE-Bench Verified de un solo problema. Esto demuestra que los agentes actuales tienen dificultades con el razonamiento sostenido y multiarchivo. También proponemos la Tasa de Corrección (Fix Rate), una métrica granular que captura el progreso parcial hacia la resolución de estas tareas complejas y de largo alcance.

English

Existing benchmarks for AI coding agents focus on isolated, single-issue tasks such as fixing a bug or implementing a small feature. However, real-world software engineering is fundamentally a long-horizon endeavor: developers must interpret high-level requirements, plan coordinated changes across many files, and evolve codebases over multiple iterations while preserving existing functionality. We introduce SWE-EVO, a benchmark that evaluates agents on this long-horizon software evolution challenge. Constructed from release notes and version histories of seven mature open-source Python projects, Tool comprises 48 evolution tasks that require agents to implement multi-step modifications spanning an average of 21 files, validated against comprehensive test suites averaging 874 tests per instance. Experiments with state-of-the-art models reveal a striking capability gap: even GPT-5 with OpenHands achieves only a 21 percent resolution rate on Tool, compared to 65 percent on the single-issue SWE-Bench Verified. This demonstrates that current agents struggle with sustained, multi-file reasoning. We also propose Fix Rate, a fine-grained metric that captures partial progress toward solving these complex, long-horizon tasks.

SWE-EVO: Evaluación de Agentes de Programación en Escenarios de Evolución de Software de Horizonte Largo

SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios

Resumen

Support