SWE-CI: Evaluación de Capacidades de Agentes para el Mantenimiento de Bases de Código mediante Integración Continua

Resumen

Los agentes impulsados por modelos de lenguaje extenso (LLM) han demostrado una gran capacidad para automatizar tareas de ingeniería de software, como la corrección estática de errores, según lo evidencian benchmarks como SWE-bench. Sin embargo, en el mundo real, el desarrollo de software maduro generalmente se basa en cambios complejos de requisitos e iteraciones de características a largo plazo, un proceso que los paradigmas de reparación estáticos y únicos no logran capturar. Para cerrar esta brecha, proponemos SWE-CI, el primer benchmark a nivel de repositorio basado en el ciclo de Integración Continua, que busca cambiar el paradigma de evaluación para la generación de código: de la corrección funcional estática y a corto plazo hacia la mantenibilidad dinámica y a largo plazo. El benchmark comprende 100 tareas, cada una correspondiente en promedio a un historial de evolución que abarca 233 días y 71 commits consecutivos en un repositorio de código del mundo real. SWE-CI requiere que los agentes resuelvan sistemáticamente estas tareas a través de docenas de rondas de análisis e iteraciones de codificación. SWE-CI proporciona información valiosa sobre qué tan bien los agentes pueden mantener la calidad del código a lo largo de una evolución a largo plazo.

English

Large language model (LLM)-powered agents have demonstrated strong capabilities in automating software engineering tasks such as static bug fixing, as evidenced by benchmarks like SWE-bench. However, in the real world, the development of mature software is typically predicated on complex requirement changes and long-term feature iterations -- a process that static, one-shot repair paradigms fail to capture. To bridge this gap, we propose SWE-CI, the first repository-level benchmark built upon the Continuous Integration loop, aiming to shift the evaluation paradigm for code generation from static, short-term functional correctness toward dynamic, long-term maintainability. The benchmark comprises 100 tasks, each corresponding on average to an evolution history spanning 233 days and 71 consecutive commits in a real-world code repository. SWE-CI requires agents to systematically resolve these tasks through dozens of rounds of analysis and coding iterations. SWE-CI provides valuable insights into how well agents can sustain code quality throughout long-term evolution.

SWE-CI: Evaluación de Capacidades de Agentes para el Mantenimiento de Bases de Código mediante Integración Continua

SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

Resumen

Support